論文の概要: Adaptive Query Prompting for Multi-Domain Landmark Detection
- arxiv url: http://arxiv.org/abs/2404.01194v1
- Date: Mon, 1 Apr 2024 15:52:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 21:55:47.499712
- Title: Adaptive Query Prompting for Multi-Domain Landmark Detection
- Title(参考訳): マルチドメインランドマーク検出のための適応型クエリプロンプト
- Authors: Qiusen Wei, Guoheng Huang, Xiaochen Yuan, Xuhang Chen, Guo Zhong, Jianwen Huang, Jiajie Huang,
- Abstract要約: 変換器アーキテクチャを利用した多領域ランドマーク検出のための普遍モデルを提案する。
提案したAQPでは、プロンプトはプロンプトプールと呼ばれるメモリ空間で保持される学習可能なパラメータである。
我々は軽量デコーダを用いて、抽出した特徴、すなわちLight-MLDからランドマークをデコードする。
- 参考スコア(独自算出の注目度): 11.819532387139029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical landmark detection is crucial in various medical imaging modalities and procedures. Although deep learning-based methods have achieve promising performance, they are mostly designed for specific anatomical regions or tasks. In this work, we propose a universal model for multi-domain landmark detection by leveraging transformer architecture and developing a prompting component, named as Adaptive Query Prompting (AQP). Instead of embedding additional modules in the backbone network, we design a separate module to generate prompts that can be effectively extended to any other transformer network. In our proposed AQP, prompts are learnable parameters maintained in a memory space called prompt pool. The central idea is to keep the backbone frozen and then optimize prompts to instruct the model inference process. Furthermore, we employ a lightweight decoder to decode landmarks from the extracted features, namely Light-MLD. Thanks to the lightweight nature of the decoder and AQP, we can handle multiple datasets by sharing the backbone encoder and then only perform partial parameter tuning without incurring much additional cost. It has the potential to be extended to more landmark detection tasks. We conduct experiments on three widely used X-ray datasets for different medical landmark detection tasks. Our proposed Light-MLD coupled with AQP achieves SOTA performance on many metrics even without the use of elaborate structural designs or complex frameworks.
- Abstract(参考訳): 医学的ランドマークの検出は、様々な医用画像のモダリティや手順において重要である。
ディープラーニングベースの手法は有望なパフォーマンスを実現しているが、主に特定の解剖学的領域やタスクのために設計されている。
本研究では、トランスフォーマーアーキテクチャを活用し、適応クエリプロンプト(AQP)と呼ばれるプロンプトコンポーネントを開発することで、マルチドメインランドマーク検出のための普遍モデルを提案する。
バックボーンネットワークに新たなモジュールを埋め込む代わりに、他のトランスフォーマーネットワークに効果的に拡張可能なプロンプトを生成するために、別個のモジュールを設計する。
提案したAQPでは、プロンプトはプロンプトプールと呼ばれるメモリ空間で保持される学習可能なパラメータである。
中心となる考え方は、バックボーンを凍結させ、モデル推論プロセスを指示するためにプロンプトを最適化することだ。
さらに、軽量デコーダを用いて、抽出した特徴、すなわちLight-MLDからランドマークをデコードする。
デコーダとAQPの軽量性のおかげで、バックボーンエンコーダを共有することで複数のデータセットを処理でき、余分なコストを伴わずに部分パラメータチューニングのみを実行できます。
よりランドマークな検出タスクに拡張される可能性がある。
医用ランドマーク検出に広く用いられている3つのX線データセットについて実験を行った。
提案するLight-MLDとAQPを組み合わせることで、複雑な構造設計や複雑なフレームワークを使わずとも、多くのメトリクス上でSOTA性能を実現することができる。
関連論文リスト
- CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection [1.837431956557716]
特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。
本稿では,特徴ピラミッドと変圧器を統合したデコーダブロックを提案する。
本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。
論文 参考訳(メタデータ) (2024-04-23T18:46:07Z) - Spatial-Temporal Enhanced Transformer Towards Multi-Frame 3D Object
Detection [59.03596380773798]
我々は、DETRのようなパラダイムに基づいた、多フレーム3Dオブジェクト検出のための新しいエンドツーエンドフレームワークであるSTEMDを提案する。
具体的には、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
我々は,計算オーバーヘッドをわずかに加えるだけで,難解なシナリオに対処する手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Cost Aggregation Is All You Need for Few-Shot Segmentation [28.23753949369226]
本稿では,数発のセグメンテーションタスクに取り組むために,変圧器を用いたボリュームアグリゲーション(VAT)を提案する。
VATは畳み込みとトランスフォーマーの両方を使用して、クエリとサポートの間の高次元相関マップを効率的に処理する。
提案手法は,意味対応タスクにおける標準ベンチマークにおいても,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-22T06:18:51Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - MRDet: A Multi-Head Network for Accurate Oriented Object Detection in
Aerial Images [51.227489316673484]
水平アンカーから変換された指向性提案を生成するために、任意指向領域提案ネットワーク(AO-RPN)を提案する。
正確なバウンディングボックスを得るために,検出タスクを複数のサブタスクに分離し,マルチヘッドネットワークを提案する。
各ヘッドは、対応するタスクに最適な特徴を学習するために特別に設計されており、ネットワークがオブジェクトを正確に検出することができる。
論文 参考訳(メタデータ) (2020-12-24T06:36:48Z) - DSIC: Dynamic Sample-Individualized Connector for Multi-Scale Object
Detection [33.61001547745264]
マルチスケールオブジェクト検出のための動的サンプル独立接続器(DSIC)を提案する。
ISGは、機能統合の入力としてバックボーンから多レベル特徴を適応的に抽出する。
CSGはマルチレベル機能に基づいて情報伝達経路を自動的に活性化する。
論文 参考訳(メタデータ) (2020-11-16T08:13:58Z) - Adaptive Linear Span Network for Object Skeleton Detection [56.78705071830965]
本研究では,適応線形スパンネットワーク(AdaLSN)を提案する。
AdaLSNは、精度とレイテンシのトレードオフを著しく高めることで、その汎用性を裏付ける。
また、エッジ検出や道路抽出といったイメージ・ツー・マスクのタスクに適用可能であることも示している。
論文 参考訳(メタデータ) (2020-11-08T12:51:14Z) - DAM: Deliberation, Abandon and Memory Networks for Generating Detailed
and Non-repetitive Responses in Visual Dialogue [29.330198609132207]
高品質な応答を生成するための新しい生成復号アーキテクチャを提案する。
このアーキテクチャでは、単語生成は一連の注意に基づく情報選択ステップに分解される。
応答は、意味的正確性を維持しながら、より詳細で反復的でない記述を含む。
論文 参考訳(メタデータ) (2020-07-07T09:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。