論文の概要: iDPA: Instance Decoupled Prompt Attention for Incremental Medical Object Detection
- arxiv url: http://arxiv.org/abs/2506.00406v1
- Date: Sat, 31 May 2025 05:53:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.902567
- Title: iDPA: Instance Decoupled Prompt Attention for Incremental Medical Object Detection
- Title(参考訳): iDPA: インクリメンタルメディカルオブジェクト検出のためのインスタンス分離プロンプトアテンション
- Authors: Huahui Yi, Wei Xu, Ziyuan Qin, Xi Chen, Xiaohu Wu, Kang Li, Qicheng Lao,
- Abstract要約: 1) 画像から詳細なインスタンスレベルの知識を分離するインスタンスレベルのPrompt Generation (ipg) と、2) 分離されたPrompt Attention (dpa) は、元のプロンプトの注意を分離し、より直接的で効率的な情報転送を可能にする。
我々は,13の臨床,クロスモーダル,マルチ組織,マルチカテゴリのデータセットをデータセットとして収集し,既存のSOTA法でメソッドアウトパフォーマンスが向上し,FAPが5.44%,4.83%向上したことを示す実験を行った。
- 参考スコア(独自算出の注目度): 15.503889340083893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing prompt-based approaches have demonstrated impressive performance in continual learning, leveraging pre-trained large-scale models for classification tasks; however, the tight coupling between foreground-background information and the coupled attention between prompts and image-text tokens present significant challenges in incremental medical object detection tasks, due to the conceptual gap between medical and natural domains. To overcome these challenges, we introduce the \method~framework, which comprises two main components: 1) Instance-level Prompt Generation (\ipg), which decouples fine-grained instance-level knowledge from images and generates prompts that focus on dense predictions, and 2) Decoupled Prompt Attention (\dpa), which decouples the original prompt attention, enabling a more direct and efficient transfer of prompt information while reducing memory usage and mitigating catastrophic forgetting. We collect 13 clinical, cross-modal, multi-organ, and multi-category datasets, referred to as \dataset, and experiments demonstrate that \method~outperforms existing SOTA methods, with FAP improvements of 5.44\%, 4.83\%, 12.88\%, and 4.59\% in full data, 1-shot, 10-shot, and 50-shot settings, respectively.
- Abstract(参考訳): 既存のプロンプトベースのアプローチでは,事前訓練された大規模モデルの分類作業に活用するなど,継続的な学習において顕著な性能を発揮している。しかし,前景情報とプロンプトと画像テキストトークンとの密結合は,医学領域と自然領域の概念的ギャップにより,段階的な医学オブジェクト検出タスクにおいて重大な課題を呈している。
これらの課題を克服するために,2つの主要コンポーネントからなる‘method〜framework’を紹介します。
1)画像からきめ細かいインスタンスレベルの知識を分離し、密集した予測に焦点を当てたプロンプトを生成するインスタンスレベルのプロンプト生成(\ipg)
2) Prompt Attention (\dpa) を分離することで、元のprompt Attention (\dpa) を分離し、メモリ使用量を減らし、破滅的な忘れを軽減しつつ、より直接的で効率的なプロンプト情報の転送を可能にした。
我々は, 臨床, クロスモーダル, マルチ組織, マルチカテゴリのデータセットを収集し, 既存のSOTA法を<method~outperforms</method~outperforms existing SOTA method, with FAP improve of 5.44\%, 4.83\%, 12.88\%, and 4.59\% in full data, 1-shot, 10-shot, 50-shot settings。
関連論文リスト
- AHDMIL: Asymmetric Hierarchical Distillation Multi-Instance Learning for Fast and Accurate Whole-Slide Image Classification [51.525891360380285]
AHDMILは非対称な階層的蒸留マルチインスタンス学習フレームワークである。
2段階のトレーニングプロセスを通じて、無関係なパッチを排除します。
分類性能と推論速度の両方において、従来の最先端手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-07T07:47:16Z) - Cross-Modal Clustering-Guided Negative Sampling for Self-Supervised Joint Learning from Medical Images and Reports [11.734906190235066]
本稿では,2次元のアイデアを用いたCross-Modal Cluster-Guided Negative Smpling (CM-CGNS)法を提案する。
まず、シングルモーダルドメインのローカルテキスト機能に使用されるk-meansクラスタリングを、クロスモーダルアテンションを通じてマルチモーダルドメインに拡張する。
第2に、マスクされた局所画像領域を再構成するために、クロスモーダルアテンションによって得られたローカルテキストと画像の特徴を利用する、CM-MIR(Cross-Modal Masked Image Reconstruction)モジュールを導入する。
論文 参考訳(メタデータ) (2025-06-13T11:08:16Z) - Improving Medical Visual Representation Learning with Pathological-level Cross-Modal Alignment and Correlation Exploration [21.260659596426184]
画像と報告の両方から病理観察の一貫性を最大化するために,新しい病理レベルの相互アライメント(PCMA)手法を提案する。
PCMAモジュールは外部の疾患アノテーションとは独立して動作し,本手法の汎用性と堅牢性を高める。
実験により,提案するフレームワークは,複数の下流タスクにおいて,新しい最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-06-12T11:01:57Z) - Semi-Supervised Medical Image Segmentation via Dual Networks [1.904929457002693]
本稿では,大規模な専門家ラベル付きデータセットへの依存を減らすために,革新的な半教師付き3次元医用画像分割法を提案する。
本稿では,コンテキスト情報を用いた既存手法の制約に対処するデュアルネットワークアーキテクチャを提案する。
臨床磁気共鳴画像実験により,我々のアプローチは最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-23T09:59:26Z) - FedLPPA: Learning Personalized Prompt and Aggregation for Federated Weakly-supervised Medical Image Segmentation [1.6013679829631893]
フェデレートラーニング(FL)は、ポリシーやプライバシの懸念によって引き起こされるデータサイロの課題を効果的に緩和する。
従来の集中型FLモデルは、特に医学的文脈において、多様なマルチセンターデータに対応している。
医用画像セグメンテーションのための不均一な弱い監督を均一に活用するために,学習可能なプロンプトとアグリゲーション(FedLPPA)を備えた新規なパーソナライズFLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-27T13:41:32Z) - Augmentation is AUtO-Net: Augmentation-Driven Contrastive Multiview
Learning for Medical Image Segmentation [3.1002416427168304]
この論文は網膜血管セグメンテーションの課題に焦点を当てている。
深層学習に基づく医用画像セグメンテーションアプローチの広範な文献レビューを提供する。
効率的でシンプルな多視点学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-02T06:31:08Z) - PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly
Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。
本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。
我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文 参考訳(メタデータ) (2023-10-18T02:59:57Z) - One-Shot Medical Landmark Localization by Edge-Guided Transform and
Noisy Landmark Refinement [59.14062241534754]
医用ランドマークのワンショット化のための2段階のフレームワークを提案する。
ステージIでは,新たな損失関数の指導の下で,グローバルアライメントと局所変形のエンドツーエンドのカスケードを学習する。
ステージIIでは,信頼性の高い擬似ラベルを選択するための自己整合性や,半教師付き学習のための相互整合性について検討する。
論文 参考訳(メタデータ) (2022-07-31T15:42:28Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - Real-time landmark detection for precise endoscopic submucosal
dissection via shape-aware relation network [51.44506007844284]
内視鏡下粘膜下郭清術における高精度かつリアルタイムなランドマーク検出のための形状認識型関係ネットワークを提案する。
まず,ランドマーク間の空間的関係に関する先行知識を直感的に表現する関係キーポイント・ヒートマップを自動生成するアルゴリズムを考案する。
次に、事前知識を学習プロセスに段階的に組み込むために、2つの補完的な正規化手法を開発する。
論文 参考訳(メタデータ) (2021-11-08T07:57:30Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。