論文の概要: Medical Phrase Grounding with Region-Phrase Context Contrastive
Alignment
- arxiv url: http://arxiv.org/abs/2303.07618v1
- Date: Tue, 14 Mar 2023 03:57:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 16:25:08.131369
- Title: Medical Phrase Grounding with Region-Phrase Context Contrastive
Alignment
- Title(参考訳): Region-Phrase Context Contrastive Alignment を用いた医療用ファーズグラウンドディング
- Authors: Zhihao Chen, Yang Zhou, Anh Tran, Junting Zhao, Liang Wan, Gideon Ooi,
Lionel Cheng, Choon Hua Thng, Xinxing Xu, Yong Liu, Huazhu Fu
- Abstract要約: 医療用語の接頭辞は、特定の医学的発見を記述したフレーズクエリーを考慮し、医療画像の最も関連性の高い領域を特定することを目的としている。
本稿では,MPGのエンドツーエンドアプローチであるMedRPGを提案する。
MedRPGにより、より優れた地域フレーズ対応によるニュアンスド医療所見の発見を可能にするため、さらにTri-attention Context contrastive alignment (TaCo)を提案する。
- 参考スコア(独自算出の注目度): 35.56193044201645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical phrase grounding (MPG) aims to locate the most relevant region in a
medical image, given a phrase query describing certain medical findings, which
is an important task for medical image analysis and radiological diagnosis.
However, existing visual grounding methods rely on general visual features for
identifying objects in natural images and are not capable of capturing the
subtle and specialized features of medical findings, leading to sub-optimal
performance in MPG. In this paper, we propose MedRPG, an end-to-end approach
for MPG. MedRPG is built on a lightweight vision-language transformer encoder
and directly predicts the box coordinates of mentioned medical findings, which
can be trained with limited medical data, making it a valuable tool in medical
image analysis. To enable MedRPG to locate nuanced medical findings with better
region-phrase correspondences, we further propose Tri-attention Context
contrastive alignment (TaCo). TaCo seeks context alignment to pull both the
features and attention outputs of relevant region-phrase pairs close together
while pushing those of irrelevant regions far away. This ensures that the final
box prediction depends more on its finding-specific regions and phrases.
Experimental results on three MPG datasets demonstrate that our MedRPG
outperforms state-of-the-art visual grounding approaches by a large margin.
Additionally, the proposed TaCo strategy is effective in enhancing finding
localization ability and reducing spurious region-phrase correlations.
- Abstract(参考訳): 医学的画像解析や放射線診断において重要な課題である、特定の医学的発見を記述したフレーズクエリーを考慮し、医学的画像の最も関連性の高い領域を特定することを目的としている。
しかし、既存の視覚的接地法は、自然画像中の物体を識別する一般的な視覚的特徴に依存しており、医学的発見の微妙で特殊な特徴を捉えることができず、MPGの準最適性能をもたらす。
本稿では,MPGのエンドツーエンドアプローチであるMedRPGを提案する。
MedRPGは、軽量なヴィジュアル言語トランスフォーマーエンコーダ上に構築されており、言及された医療所見のボックス座標を直接予測する。
さらに,MedRPGが,より優れた地域・フレーズ対応によるニュアンス医学的発見を見つけるために,Tri-attention Context contrastive alignment (TaCo)を提案する。
TaCoはコンテキストアライメント(コンテキストアライメント)を模索し、関連する領域とフレーズのペアの特徴と注意のアウトプットを密集させ、無関係な領域の特徴を遠くに押し込む。
これにより、最終ボックスの予測がその発見固有の領域やフレーズに依存することが保証される。
3つのMPGデータセットによる実験結果から、我々のMedRPGは最先端の視覚的接地アプローチよりも大きなマージンで優れていることが示された。
さらに,TaCo戦略は,局所化能力の発見とスプリアス領域-フレーズ相関の低減に有効である。
関連論文リスト
- Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。
空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。
時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:15:09Z) - Content-Based Image Retrieval for Multi-Class Volumetric Radiology Images: A Benchmark Study [0.6249768559720122]
非医用画像上の事前訓練された教師なしモデルからの埋め込みに対して、医用画像上の事前訓練された教師なしモデルからの埋め込みをベンチマークした。
ボリューム画像の検索には,テキストマッチングにインスパイアされた遅延インタラクションのランク付け手法を採用する。
論文 参考訳(メタデータ) (2024-05-15T13:34:07Z) - Grounded Knowledge-Enhanced Medical VLP for Chest X-Ray [12.239249676716247]
医用視覚言語プレトレーニングは、医用画像とテキストのドメイン汎用表現を学習するための有望なアプローチとして現れてきた。
胸部X線に対する知識強化型医療ビジョン言語事前学習フレームワークを提案する。
以上の結果から,胸部X線像とX線像との整合性を改善するために接地機構を組み込むことの利点が示唆された。
論文 参考訳(メタデータ) (2024-04-23T05:16:24Z) - MedRG: Medical Report Grounding with Multi-modal Large Language Model [42.04042642085121]
Medical Report Grounding (MedRG)は、キーフレーズを予測するためにマルチモーダルな大規模言語モデルを利用するエンドツーエンドのソリューションである。
MedRGの有効性を実証し,既存の医療用語の接頭法の性能を上回り,その効果を検証した。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - TarGAN: Target-Aware Generative Adversarial Networks for Multi-modality
Medical Image Translation [4.333115837538408]
本稿では,TarGANと呼ばれる新たなターゲット認識型生成敵ネットワークを提案する。
TarGANは、ペア化されたデータに頼ることなく、マルチモーダルな医療画像翻訳を学ぶことができる。
定量的測定と定性評価の両方の実験により、TarGANはあらゆるケースにおいて最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-05-19T08:45:33Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。