論文の概要: Medical Phrase Grounding with Region-Phrase Context Contrastive
Alignment
- arxiv url: http://arxiv.org/abs/2303.07618v1
- Date: Tue, 14 Mar 2023 03:57:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 16:25:08.131369
- Title: Medical Phrase Grounding with Region-Phrase Context Contrastive
Alignment
- Title(参考訳): Region-Phrase Context Contrastive Alignment を用いた医療用ファーズグラウンドディング
- Authors: Zhihao Chen, Yang Zhou, Anh Tran, Junting Zhao, Liang Wan, Gideon Ooi,
Lionel Cheng, Choon Hua Thng, Xinxing Xu, Yong Liu, Huazhu Fu
- Abstract要約: 医療用語の接頭辞は、特定の医学的発見を記述したフレーズクエリーを考慮し、医療画像の最も関連性の高い領域を特定することを目的としている。
本稿では,MPGのエンドツーエンドアプローチであるMedRPGを提案する。
MedRPGにより、より優れた地域フレーズ対応によるニュアンスド医療所見の発見を可能にするため、さらにTri-attention Context contrastive alignment (TaCo)を提案する。
- 参考スコア(独自算出の注目度): 35.56193044201645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical phrase grounding (MPG) aims to locate the most relevant region in a
medical image, given a phrase query describing certain medical findings, which
is an important task for medical image analysis and radiological diagnosis.
However, existing visual grounding methods rely on general visual features for
identifying objects in natural images and are not capable of capturing the
subtle and specialized features of medical findings, leading to sub-optimal
performance in MPG. In this paper, we propose MedRPG, an end-to-end approach
for MPG. MedRPG is built on a lightweight vision-language transformer encoder
and directly predicts the box coordinates of mentioned medical findings, which
can be trained with limited medical data, making it a valuable tool in medical
image analysis. To enable MedRPG to locate nuanced medical findings with better
region-phrase correspondences, we further propose Tri-attention Context
contrastive alignment (TaCo). TaCo seeks context alignment to pull both the
features and attention outputs of relevant region-phrase pairs close together
while pushing those of irrelevant regions far away. This ensures that the final
box prediction depends more on its finding-specific regions and phrases.
Experimental results on three MPG datasets demonstrate that our MedRPG
outperforms state-of-the-art visual grounding approaches by a large margin.
Additionally, the proposed TaCo strategy is effective in enhancing finding
localization ability and reducing spurious region-phrase correlations.
- Abstract(参考訳): 医学的画像解析や放射線診断において重要な課題である、特定の医学的発見を記述したフレーズクエリーを考慮し、医学的画像の最も関連性の高い領域を特定することを目的としている。
しかし、既存の視覚的接地法は、自然画像中の物体を識別する一般的な視覚的特徴に依存しており、医学的発見の微妙で特殊な特徴を捉えることができず、MPGの準最適性能をもたらす。
本稿では,MPGのエンドツーエンドアプローチであるMedRPGを提案する。
MedRPGは、軽量なヴィジュアル言語トランスフォーマーエンコーダ上に構築されており、言及された医療所見のボックス座標を直接予測する。
さらに,MedRPGが,より優れた地域・フレーズ対応によるニュアンス医学的発見を見つけるために,Tri-attention Context contrastive alignment (TaCo)を提案する。
TaCoはコンテキストアライメント(コンテキストアライメント)を模索し、関連する領域とフレーズのペアの特徴と注意のアウトプットを密集させ、無関係な領域の特徴を遠くに押し込む。
これにより、最終ボックスの予測がその発見固有の領域やフレーズに依存することが保証される。
3つのMPGデータセットによる実験結果から、我々のMedRPGは最先端の視覚的接地アプローチよりも大きなマージンで優れていることが示された。
さらに,TaCo戦略は,局所化能力の発見とスプリアス領域-フレーズ相関の低減に有効である。
関連論文リスト
- Semantic Textual Similarity Assessment in Chest X-ray Reports Using a
Domain-Specific Cosine-Based Metric [1.7802147489386628]
本稿では,生成医療報告と基礎的真実とのセマンティックな類似性を評価するための新しいアプローチを提案する。
本手法の有効性を検証し,医学的文脈におけるドメイン固有の意味的類似性を評価する。
論文 参考訳(メタデータ) (2024-02-19T07:48:25Z) - RAD-DINO: Exploring Scalable Medical Image Encoders Beyond Text
Supervision [44.00149519249467]
言語による事前学習は、画像から意味論的に意味のある特徴を抽出する貴重な方法であることが証明されている。
生体画像エンコーダRAD-DINOについて検討した。
論文 参考訳(メタデータ) (2024-01-19T17:02:17Z) - Multimodal self-supervised learning for lesion localization [20.33625985769796]
そこで本研究では,局所的な意味的アライメントのための基本単位として,テキストレポートから全文を抽出する手法を提案する。
本手法は胸部X線画像と対応するテキストレポートを組み合わせることで,グローバルレベルとローカルレベルの両方でコントラスト学習を行う。
論文 参考訳(メタデータ) (2024-01-03T03:33:48Z) - Implicit Anatomical Rendering for Medical Image Segmentation with
Stochastic Experts [11.007092387379078]
医用画像セグメンテーションの学習を支援するために,解剖学的レベルで設計された汎用的な暗黙的ニューラルネットワークレンダリングフレームワークであるMORSEを提案する。
医用画像のセグメンテーションをエンドツーエンドのレンダリング問題として定式化する。
実験の結果,MORSEは異なる医療セグメントのバックボーンでうまく機能することが示された。
論文 参考訳(メタデータ) (2023-04-06T16:44:03Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - AlignTransformer: Hierarchical Alignment of Visual Regions and Disease
Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。
パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文 参考訳(メタデータ) (2022-03-18T13:43:53Z) - TarGAN: Target-Aware Generative Adversarial Networks for Multi-modality
Medical Image Translation [4.333115837538408]
本稿では,TarGANと呼ばれる新たなターゲット認識型生成敵ネットワークを提案する。
TarGANは、ペア化されたデータに頼ることなく、マルチモーダルな医療画像翻訳を学ぶことができる。
定量的測定と定性評価の両方の実験により、TarGANはあらゆるケースにおいて最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-05-19T08:45:33Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z) - Weakly supervised multiple instance learning histopathological tumor
segmentation [51.085268272912415]
スライド画像全体のセグメント化のための弱教師付きフレームワークを提案する。
トレーニングモデルに複数のインスタンス学習スキームを利用する。
提案するフレームワークは,The Cancer Genome AtlasとPatchCamelyonデータセットのマルチロケーションとマルチ中心公開データに基づいて評価されている。
論文 参考訳(メタデータ) (2020-04-10T13:12:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。