Fugu-MT 論文翻訳(概要): Adaptive Query Prompting for Multi-Domain Landmark Detection

論文の概要: Adaptive Query Prompting for Multi-Domain Landmark Detection

arxiv url: http://arxiv.org/abs/2404.01194v1
Date: Mon, 1 Apr 2024 15:52:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 21:55:47.499712
Title: Adaptive Query Prompting for Multi-Domain Landmark Detection
Title（参考訳）: マルチドメインランドマーク検出のための適応型クエリプロンプト
Authors: Qiusen Wei, Guoheng Huang, Xiaochen Yuan, Xuhang Chen, Guo Zhong, Jianwen Huang, Jiajie Huang,
Abstract要約: 変換器アーキテクチャを利用した多領域ランドマーク検出のための普遍モデルを提案する。提案したAQPでは、プロンプトはプロンプトプールと呼ばれるメモリ空間で保持される学習可能なパラメータである。我々は軽量デコーダを用いて、抽出した特徴、すなわちLight-MLDからランドマークをデコードする。
参考スコア（独自算出の注目度）: 11.819532387139029
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Medical landmark detection is crucial in various medical imaging modalities and procedures. Although deep learning-based methods have achieve promising performance, they are mostly designed for specific anatomical regions or tasks. In this work, we propose a universal model for multi-domain landmark detection by leveraging transformer architecture and developing a prompting component, named as Adaptive Query Prompting (AQP). Instead of embedding additional modules in the backbone network, we design a separate module to generate prompts that can be effectively extended to any other transformer network. In our proposed AQP, prompts are learnable parameters maintained in a memory space called prompt pool. The central idea is to keep the backbone frozen and then optimize prompts to instruct the model inference process. Furthermore, we employ a lightweight decoder to decode landmarks from the extracted features, namely Light-MLD. Thanks to the lightweight nature of the decoder and AQP, we can handle multiple datasets by sharing the backbone encoder and then only perform partial parameter tuning without incurring much additional cost. It has the potential to be extended to more landmark detection tasks. We conduct experiments on three widely used X-ray datasets for different medical landmark detection tasks. Our proposed Light-MLD coupled with AQP achieves SOTA performance on many metrics even without the use of elaborate structural designs or complex frameworks.
Abstract（参考訳）: 医学的ランドマークの検出は、様々な医用画像のモダリティや手順において重要である。ディープラーニングベースの手法は有望なパフォーマンスを実現しているが、主に特定の解剖学的領域やタスクのために設計されている。本研究では、トランスフォーマーアーキテクチャを活用し、適応クエリプロンプト(AQP)と呼ばれるプロンプトコンポーネントを開発することで、マルチドメインランドマーク検出のための普遍モデルを提案する。バックボーンネットワークに新たなモジュールを埋め込む代わりに、他のトランスフォーマーネットワークに効果的に拡張可能なプロンプトを生成するために、別個のモジュールを設計する。提案したAQPでは、プロンプトはプロンプトプールと呼ばれるメモリ空間で保持される学習可能なパラメータである。中心となる考え方は、バックボーンを凍結させ、モデル推論プロセスを指示するためにプロンプトを最適化することだ。さらに、軽量デコーダを用いて、抽出した特徴、すなわちLight-MLDからランドマークをデコードする。デコーダとAQPの軽量性のおかげで、バックボーンエンコーダを共有することで複数のデータセットを処理でき、余分なコストを伴わずに部分パラメータチューニングのみを実行できます。よりランドマークな検出タスクに拡張される可能性がある。医用ランドマーク検出に広く用いられている3つのX線データセットについて実験を行った。提案するLight-MLDとAQPを組み合わせることで、複雑な構造設計や複雑なフレームワークを使わずとも、多くのメトリクス上でSOTA性能を実現することができる。

関連論文リスト

SAM-DAQ: Segment Anything Model with Depth-guided Adaptive Queries for RGB-D Video Salient Object Detection [44.480885765890925]
本稿では,Depth-Guided Adaptive Queries (SAM-DAQ) を用いた新しいセグメンテーションモデルを提案する。 SAM-DAQは、深度と時間的手がかりを統一されたフレームワークにシームレスに統合することにより、SAM2をビデオから鮮やかなオブジェクトに適応させる。実験は3つのRGB-D VSODデータセットを用いて行われ、提案したSAM-DAQは、すべての評価指標で常に最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2025-11-13T02:04:03Z)
Align Your Query: Representation Alignment for Multimodality Medical Object Detection [55.86070915426998]
本稿では,表現をモダリティの文脈と整合させる検出非依存の枠組みを提案する。モーダリティトークンをマルチモーダリティコンテキスト注意による検出プロセスに統合する。提案されたアプローチは、最小限のオーバーヘッドとアーキテクチャの変更を伴わず、APを継続的に改善する。
論文参考訳（メタデータ） (2025-10-03T07:49:21Z)
An Enhanced Pyramid Feature Network Based on Long-Range Dependencies for Multi-Organ Medical Image Segmentation [12.785846392087144]
複数の臓器にまたがる細粒度セグメンテーションタスクのための,LamFormerと呼ばれる新しいディープラーニングネットワークを提案する。 LamFormerは、既存のセグメンテーションメソッドを7つの複雑で多様なデータセットで上回っている。
論文参考訳（メタデータ） (2025-09-29T06:57:11Z)
AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。 AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文参考訳（メタデータ） (2025-05-21T07:02:05Z)
MI-DETR: An Object Detection Model with Multi-time Inquiries Mechanism [67.56918651825056]
並列マルチ時間問い合わせ(MI)機構を備えた新しいデコーダアーキテクチャを提案する。我々のMIベースモデルであるMI-DETRはCOCOベンチマークで既存のDETRライクなモデルよりも優れています。診断と可視化の一連の実験は、MIの有効性、合理性、解釈可能性を示している。
論文参考訳（メタデータ） (2025-03-03T12:19:06Z)
Optimizing Medical Image Segmentation with Advanced Decoder Design [0.8402155549849591]
U-Netは、シンプルで柔軟なアーキテクチャ設計のため、医用画像のセグメンテーションで広く使われている。提案するSwin DER(Swin UNETR Decoder Enhanced and Refined)は,これらの3つのコンポーネントの設計を最適化する。我々のモデル設計は、SynapseとMSDの脳腫瘍セグメント化タスクの両方において、最先端の手法を超越して優れた結果が得られる。
論文参考訳（メタデータ） (2024-10-05T11:47:13Z)
AFFSegNet: Adaptive Feature Fusion Segmentation Network for Microtumors and Multi-Organ Segmentation [32.74195208408193]
医用画像のセグメンテーションは、コンピュータビジョンにおいて重要な課題であり、診断、治療計画、疾患モニタリングにおける臨床医を支援する。本稿では,局所的特徴とグローバルな特徴を効果的に統合し,正確な医用画像分割を実現するトランスフォーマアーキテクチャである適応意味ネットワーク(ASSNet)を提案する。多臓器、肝腫瘍、膀胱腫瘍の分節を含む様々な医療画像の分節タスクに関するテストは、ATSNetが最先端の結果を達成することを実証している。
論文参考訳（メタデータ） (2024-09-12T06:25:44Z)
Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models [17.643421997037514]
差別的, 生成的両マルチモーダル医療課題に対処する新しい枠組みを提案する。 Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。我々のモデルは最先端のベースラインに匹敵する性能を達成できる。
論文参考訳（メタデータ） (2024-04-16T02:35:17Z)
Multi-Agent Reinforcement Learning for Microprocessor Design Space Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文参考訳（メタデータ） (2022-11-29T17:10:24Z)
Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。 5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文参考訳（メタデータ） (2022-06-07T08:35:41Z)
Cost Aggregation Is All You Need for Few-Shot Segmentation [28.23753949369226]
本稿では,数発のセグメンテーションタスクに取り組むために,変圧器を用いたボリュームアグリゲーション(VAT)を提案する。 VATは畳み込みとトランスフォーマーの両方を使用して、クエリとサポートの間の高次元相関マップを効率的に処理する。提案手法は,意味対応タスクにおける標準ベンチマークにおいても,最先端の性能を実現する。
論文参考訳（メタデータ） (2021-12-22T06:18:51Z)
PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文参考訳（メタデータ） (2021-09-15T01:10:30Z)
Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文参考訳（メタデータ） (2021-07-28T03:57:12Z)
MRDet: A Multi-Head Network for Accurate Oriented Object Detection in Aerial Images [51.227489316673484]
水平アンカーから変換された指向性提案を生成するために、任意指向領域提案ネットワーク(AO-RPN)を提案する。正確なバウンディングボックスを得るために,検出タスクを複数のサブタスクに分離し,マルチヘッドネットワークを提案する。各ヘッドは、対応するタスクに最適な特徴を学習するために特別に設計されており、ネットワークがオブジェクトを正確に検出することができる。
論文参考訳（メタデータ） (2020-12-24T06:36:48Z)
DSIC: Dynamic Sample-Individualized Connector for Multi-Scale Object Detection [33.61001547745264]
マルチスケールオブジェクト検出のための動的サンプル独立接続器(DSIC)を提案する。 ISGは、機能統合の入力としてバックボーンから多レベル特徴を適応的に抽出する。 CSGはマルチレベル機能に基づいて情報伝達経路を自動的に活性化する。
論文参考訳（メタデータ） (2020-11-16T08:13:58Z)
Adaptive Linear Span Network for Object Skeleton Detection [56.78705071830965]
本研究では,適応線形スパンネットワーク(AdaLSN)を提案する。 AdaLSNは、精度とレイテンシのトレードオフを著しく高めることで、その汎用性を裏付ける。また、エッジ検出や道路抽出といったイメージ・ツー・マスクのタスクに適用可能であることも示している。
論文参考訳（メタデータ） (2020-11-08T12:51:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。