論文の概要: Cross-Modal Causal Intervention for Medical Report Generation
- arxiv url: http://arxiv.org/abs/2303.09117v4
- Date: Wed, 28 Feb 2024 08:57:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 19:22:43.134091
- Title: Cross-Modal Causal Intervention for Medical Report Generation
- Title(参考訳): 医療報告作成のためのクロスモーダル因果介入
- Authors: Weixing Chen, Yang Liu, Ce Wang, Jiarui Zhu, Shen Zhao, Guanbin Li,
Cheng-Lin Liu and Liang Lin
- Abstract要約: 医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
- 参考スコア(独自算出の注目度): 109.83549148448469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical report generation (MRG) is essential for computer-aided diagnosis and
medication guidance, which can relieve the heavy burden of radiologists by
automatically generating the corresponding medical reports according to the
given radiology image. However, due to the spurious correlations within
image-text data induced by visual and linguistic biases, it is challenging to
generate accurate reports reliably describing lesion areas. Moreover, the
cross-modal confounders are usually unobservable and challenging to be
eliminated explicitly. In this paper, we aim to mitigate the cross-modal data
bias for MRG from a new perspective, i.e., cross-modal causal intervention, and
propose a novel Visual-Linguistic Causal Intervention (VLCI) framework for MRG,
which consists of a visual deconfounding module (VDM) and a linguistic
deconfounding module (LDM), to implicitly mitigate the visual-linguistic
confounders by causal front-door intervention. Specifically, due to the absence
of a generalized semantic extractor, the VDM explores and disentangles the
visual confounders from the patch-based local and global features without
expensive fine-grained annotations. Simultaneously, due to the lack of
knowledge encompassing the entire field of medicine, the LDM eliminates the
linguistic confounders caused by salient visual features and high-frequency
context without constructing a terminology database. Extensive experiments on
IU-Xray and MIMIC-CXR datasets show that our VLCI significantly outperforms the
state-of-the-art MRG methods. The code and models are available at
https://github.com/WissingChen/VLCI.
- Abstract(参考訳): 医療報告生成(MRG)は、放射線医の重荷を軽減し、所定の放射線画像に従って対応する医療報告を自動生成するコンピュータ支援診断および医薬指導に不可欠である。
しかし,視覚・言語バイアスによって引き起こされる画像テキストデータのスプリアス相関から,病変領域を正確に記述する正確なレポートの作成が困難である。
さらに、クロスモーダルな共同創設者は通常観察不能であり、明示的に排除することは困難である。
本稿では,MRGのクロスモーダルデータバイアス,すなわちクロスモーダル因果介入を新たな視点から緩和し,視覚的疎結合モジュール(VDM)と言語的疎結合モジュール(LDM)からなるMRGのための新しい視覚言語因果干渉(VLCI)フレームワークを提案する。
具体的には、汎用的な意味抽出器がないため、vdmは高価な細かなアノテーションを使わずにパッチベースのローカルおよびグローバル機能からvisual confoundersを探索し、分離する。
同時に、医学の分野全体を包含する知識の欠如により、ldmは用語データベースを構築することなく、突出した視覚特徴と高周波コンテキストによって引き起こされる言語共起者を排除している。
IU-XrayとMIMIC-CXRデータセットの大規模な実験により、我々のVLCIは最先端のMRG法よりも大幅に優れていることが示された。
コードとモデルはhttps://github.com/WissingChen/VLCIで入手できる。
関連論文リスト
- TRRG: Towards Truthful Radiology Report Generation With Cross-modal Disease Clue Enhanced Large Language Model [22.305034251561835]
そこで我々は,大規模言語モデルへのクロスモーダル病ヒントインジェクションの段階的訓練に基づく,真正な放射線学レポート生成フレームワークTRRGを提案する。
提案フレームワークは,IU-XrayやMIMIC-CXRなどのデータセットを用いた放射線学レポート生成において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-08-22T05:52:27Z) - SERPENT-VLM : Self-Refining Radiology Report Generation Using Vision Language Models [9.390882250428305]
放射線学報告生成(R2Gen)は、マルチモーダル大言語モデル(MLLM)が正確で一貫性のある放射線学レポートの作成をいかに自動化できるかを示す。
既存の方法は、しばしば画像内容を正確に反映しないテキストベースのレポートで詳細を幻覚させる。
本稿では,自己修復機構をMLLMフレームワークに統合することにより,R2Genタスクを改善する新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-04-27T13:46:23Z) - Dynamic Traceback Learning for Medical Report Generation [12.746275623663289]
本研究では,医療報告生成のための新しいマルチモーダル動的トレースバック学習フレームワークDTraceを提案する。
生成したコンテンツのセマンティックな妥当性を監視するためのトレースバック機構と、画像やテキスト入力の様々な割合に適応するための動的学習戦略を導入する。
提案するDTraceフレームワークは,医療報告生成の最先端手法より優れている。
論文 参考訳(メタデータ) (2024-01-24T07:13:06Z) - Medical Report Generation based on Segment-Enhanced Contrastive
Representation Learning [39.17345313432545]
臓器, 異常, 骨等を分類するためのMSCL(医学画像とコントラスト学習)を提案する。
トレーニング中にターゲットとセマンティックに類似したレポートにより多くの重みを割り当てる教師付きコントラスト損失を導入する。
実験の結果,提案手法の有効性が示され,IU X線公開データセット上での最先端性能が得られた。
論文 参考訳(メタデータ) (2023-12-26T03:33:48Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Dynamic Graph Enhanced Contrastive Learning for Chest X-ray Report
Generation [92.73584302508907]
コントラスト学習を用いた医療レポート作成を支援するために,動的構造とノードを持つ知識グラフを提案する。
詳しくは、グラフの基本構造は一般知識から事前構築される。
各イメージ機能は、レポート生成のためにデコーダモジュールに入力する前に、独自の更新グラフに統合される。
論文 参考訳(メタデータ) (2023-03-18T03:53:43Z) - Cross-Modal Causal Relational Reasoning for Event-Level Visual Question
Answering [134.91774666260338]
既存の視覚的質問応答法は、しばしばクロスモーダルなスプリアス相関と過度に単純化されたイベントレベルの推論プロセスに悩まされる。
本稿では,イベントレベルの視覚的質問応答の課題に対処するために,モーダルな因果関係推論のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-26T04:25:54Z) - A Self-Guided Framework for Radiology Report Generation [10.573538773141715]
SGF(Self-Guided framework)は、注釈付き疾患ラベルによる医療報告を生成するために開発されたフレームワークである。
SGFは、人間の学習と執筆の過程を模倣するために、教師なしおよび教師なしのディープラーニング手法を使用している。
提案手法は,単語間の細粒度視覚的詳細を識別するためのフレームワークの能力を強調した。
論文 参考訳(メタデータ) (2022-06-19T11:09:27Z) - AlignTransformer: Hierarchical Alignment of Visual Regions and Disease
Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。
パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文 参考訳(メタデータ) (2022-03-18T13:43:53Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。