論文の概要: Visual-Linguistic Causal Intervention for Radiology Report Generation
- arxiv url: http://arxiv.org/abs/2303.09117v1
- Date: Thu, 16 Mar 2023 07:23:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 16:25:24.488836
- Title: Visual-Linguistic Causal Intervention for Radiology Report Generation
- Title(参考訳): 放射線診断のための視覚言語的因果介入
- Authors: Weixing Chen, Yang Liu, Ce Wang, Guanbin Li, Jiarui Zhu and Liang Lin
- Abstract要約: 自動ラジオグラフィーレポート生成(RRG)のためのクロスモーダルデータバイアスを明示的に排除することは困難である。
本稿では,視覚分解モジュール(VDM)と言語分解モジュール(LDM)からなるRRGのための新しい視覚言語因果干渉(VLCI)フレームワークを提案する。
我々のVLCIは最先端のRRG法よりも優れています。
- 参考スコア(独自算出の注目度): 107.3213342532564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic radiology report generation is essential for computer-aided
diagnosis and medication guidance. Importantly, automatic radiology report
generation (RRG) can relieve the heavy burden of radiologists by generating
medical reports automatically from visual-linguistic data relations. However,
due to the spurious correlations within image-text data induced by visual and
linguistic biases, it is challenging to generate accurate reports that reliably
describe abnormalities. Besides, the cross-modal confounder is usually
unobservable and difficult to be eliminated explicitly. In this paper, we
mitigate the cross-modal data bias for RRG from a new perspective, i.e.,
visual-linguistic causal intervention, and propose a novel Visual-Linguistic
Causal Intervention (VLCI) framework for RRG, which consists of a visual
deconfounding module (VDM) and a linguistic deconfounding module (LDM), to
implicitly deconfound the visual-linguistic confounder by causal front-door
intervention. Specifically, the VDM explores and disentangles the visual
confounder from the patch-based local and global features without object
detection due to the absence of universal clinic semantic extraction.
Simultaneously, the LDM eliminates the linguistic confounder caused by salient
visual features and high-frequency context without constructing specific
dictionaries. Extensive experiments on IU-Xray and MIMIC-CXR datasets show that
our VLCI outperforms the state-of-the-art RRG methods significantly. Source
code and models are available at https://github.com/WissingChen/VLCI.
- Abstract(参考訳): 自動x線レポート作成は, コンピュータ支援診断および薬剤指導に不可欠である。
重要なことは、自動放射線学レポート生成(RRG)は、視覚言語学的データ関係から医療報告を自動生成することにより、放射線科医の重荷を軽減できる。
しかし,視覚・言語バイアスによって引き起こされる画像テキストデータのスプリアス相関のため,異常を確実に記述する正確なレポートの作成が困難である。
さらに、クロスモーダルな共同創設者は通常観察不能であり、明示的に排除することは困難である。
本稿では、新しい視点、すなわち視覚言語学的因果的介入からRRGのクロスモーダルデータバイアスを緩和し、視覚的解答モジュール(VDM)と言語的解答モジュール(LDM)からなるRRGのための新しい視覚言語学的因果的介入(VLCI)フレームワークを提案する。
特に、vdmは、普遍的なクリニックのセマンティクスの抽出がないため、オブジェクト検出なしでパッチベースのローカルおよびグローバル機能から視覚共同創設者を探索し、分離する。
同時に、LDMは特定の辞書を構築することなく、健全な視覚特徴と高周波コンテキストによって引き起こされる言語的共同創設者を排除する。
IU-XrayとMIMIC-CXRデータセットの大規模な実験により、我々のVLCIは最先端のRRG法よりも大幅に優れていることが示された。
ソースコードとモデルはhttps://github.com/WissingChen/VLCIで入手できる。
関連論文リスト
- Improving Factuality of 3D Brain MRI Report Generation with Paired Image-domain Retrieval and Text-domain Augmentation [42.13004422063442]
急性虚血性脳梗塞(AIS)は、時間的クリティカルな管理を必要とし、数時間の介入が遅れて、患者の不可逆的な障害につながる。
磁気共鳴画像(MRI)を用いた拡散強調画像(DWI)はAISの検出において重要な役割を担っているため,DWIからのAISの自動予測は臨床的に重要な課題となっている。
画像所見から最も関連性の高い臨床情報を含むテキストラジオグラフィー報告では, 従来のDWI-to-report 生成法では, 異なるモダリティのマッピングが困難であった。
論文 参考訳(メタデータ) (2024-11-23T08:18:55Z) - TRRG: Towards Truthful Radiology Report Generation With Cross-modal Disease Clue Enhanced Large Language Model [22.305034251561835]
そこで我々は,大規模言語モデルへのクロスモーダル病ヒントインジェクションの段階的訓練に基づく,真正な放射線学レポート生成フレームワークTRRGを提案する。
提案フレームワークは,IU-XrayやMIMIC-CXRなどのデータセットを用いた放射線学レポート生成において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-08-22T05:52:27Z) - SERPENT-VLM : Self-Refining Radiology Report Generation Using Vision Language Models [9.390882250428305]
放射線学報告生成(R2Gen)は、マルチモーダル大言語モデル(MLLM)が正確で一貫性のある放射線学レポートの作成をいかに自動化できるかを示す。
既存の方法は、しばしば画像内容を正確に反映しないテキストベースのレポートで詳細を幻覚させる。
本稿では,自己修復機構をMLLMフレームワークに統合することにより,R2Genタスクを改善する新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-04-27T13:46:23Z) - Dynamic Traceback Learning for Medical Report Generation [12.746275623663289]
本研究では,医療報告生成のための新しいマルチモーダル動的トレースバック学習フレームワークDTraceを提案する。
生成したコンテンツのセマンティックな妥当性を監視するためのトレースバック機構と、画像やテキスト入力の様々な割合に適応するための動的学習戦略を導入する。
提案するDTraceフレームワークは,医療報告生成の最先端手法より優れている。
論文 参考訳(メタデータ) (2024-01-24T07:13:06Z) - Medical Report Generation based on Segment-Enhanced Contrastive
Representation Learning [39.17345313432545]
臓器, 異常, 骨等を分類するためのMSCL(医学画像とコントラスト学習)を提案する。
トレーニング中にターゲットとセマンティックに類似したレポートにより多くの重みを割り当てる教師付きコントラスト損失を導入する。
実験の結果,提案手法の有効性が示され,IU X線公開データセット上での最先端性能が得られた。
論文 参考訳(メタデータ) (2023-12-26T03:33:48Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Dynamic Graph Enhanced Contrastive Learning for Chest X-ray Report
Generation [92.73584302508907]
コントラスト学習を用いた医療レポート作成を支援するために,動的構造とノードを持つ知識グラフを提案する。
詳しくは、グラフの基本構造は一般知識から事前構築される。
各イメージ機能は、レポート生成のためにデコーダモジュールに入力する前に、独自の更新グラフに統合される。
論文 参考訳(メタデータ) (2023-03-18T03:53:43Z) - Cross-Modal Causal Relational Reasoning for Event-Level Visual Question
Answering [134.91774666260338]
既存の視覚的質問応答法は、しばしばクロスモーダルなスプリアス相関と過度に単純化されたイベントレベルの推論プロセスに悩まされる。
本稿では,イベントレベルの視覚的質問応答の課題に対処するために,モーダルな因果関係推論のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-26T04:25:54Z) - AlignTransformer: Hierarchical Alignment of Visual Regions and Disease
Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。
パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文 参考訳(メタデータ) (2022-03-18T13:43:53Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。