論文の概要: Visual-Linguistic Causal Intervention for Radiology Report Generation
- arxiv url: http://arxiv.org/abs/2303.09117v1
- Date: Thu, 16 Mar 2023 07:23:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 16:25:24.488836
- Title: Visual-Linguistic Causal Intervention for Radiology Report Generation
- Title(参考訳): 放射線診断のための視覚言語的因果介入
- Authors: Weixing Chen, Yang Liu, Ce Wang, Guanbin Li, Jiarui Zhu and Liang Lin
- Abstract要約: 自動ラジオグラフィーレポート生成(RRG)のためのクロスモーダルデータバイアスを明示的に排除することは困難である。
本稿では,視覚分解モジュール(VDM)と言語分解モジュール(LDM)からなるRRGのための新しい視覚言語因果干渉(VLCI)フレームワークを提案する。
我々のVLCIは最先端のRRG法よりも優れています。
- 参考スコア(独自算出の注目度): 107.3213342532564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic radiology report generation is essential for computer-aided
diagnosis and medication guidance. Importantly, automatic radiology report
generation (RRG) can relieve the heavy burden of radiologists by generating
medical reports automatically from visual-linguistic data relations. However,
due to the spurious correlations within image-text data induced by visual and
linguistic biases, it is challenging to generate accurate reports that reliably
describe abnormalities. Besides, the cross-modal confounder is usually
unobservable and difficult to be eliminated explicitly. In this paper, we
mitigate the cross-modal data bias for RRG from a new perspective, i.e.,
visual-linguistic causal intervention, and propose a novel Visual-Linguistic
Causal Intervention (VLCI) framework for RRG, which consists of a visual
deconfounding module (VDM) and a linguistic deconfounding module (LDM), to
implicitly deconfound the visual-linguistic confounder by causal front-door
intervention. Specifically, the VDM explores and disentangles the visual
confounder from the patch-based local and global features without object
detection due to the absence of universal clinic semantic extraction.
Simultaneously, the LDM eliminates the linguistic confounder caused by salient
visual features and high-frequency context without constructing specific
dictionaries. Extensive experiments on IU-Xray and MIMIC-CXR datasets show that
our VLCI outperforms the state-of-the-art RRG methods significantly. Source
code and models are available at https://github.com/WissingChen/VLCI.
- Abstract(参考訳): 自動x線レポート作成は, コンピュータ支援診断および薬剤指導に不可欠である。
重要なことは、自動放射線学レポート生成(RRG)は、視覚言語学的データ関係から医療報告を自動生成することにより、放射線科医の重荷を軽減できる。
しかし,視覚・言語バイアスによって引き起こされる画像テキストデータのスプリアス相関のため,異常を確実に記述する正確なレポートの作成が困難である。
さらに、クロスモーダルな共同創設者は通常観察不能であり、明示的に排除することは困難である。
本稿では、新しい視点、すなわち視覚言語学的因果的介入からRRGのクロスモーダルデータバイアスを緩和し、視覚的解答モジュール(VDM)と言語的解答モジュール(LDM)からなるRRGのための新しい視覚言語学的因果的介入(VLCI)フレームワークを提案する。
特に、vdmは、普遍的なクリニックのセマンティクスの抽出がないため、オブジェクト検出なしでパッチベースのローカルおよびグローバル機能から視覚共同創設者を探索し、分離する。
同時に、LDMは特定の辞書を構築することなく、健全な視覚特徴と高周波コンテキストによって引き起こされる言語的共同創設者を排除する。
IU-XrayとMIMIC-CXRデータセットの大規模な実験により、我々のVLCIは最先端のRRG法よりも大幅に優れていることが示された。
ソースコードとモデルはhttps://github.com/WissingChen/VLCIで入手できる。
関連論文リスト
- CAMANet: Class Activation Map Guided Attention Network for Radiology
Report Generation [29.534459670737967]
ラジオロジーレポート生成(RRG)の最近の進歩は、単一モーダル特徴表現の符号化におけるモデルの能力の向上によって推進されている。
画像領域と単語間のクロスモーダルアライメントを明確に検討する研究はほとんどない。
本稿では,相互アライメントを明示的に促進するクラス活性化マップガイドアテンションネットワーク(CAMANet)を提案する。
論文 参考訳(メタデータ) (2022-11-02T18:14:33Z) - Cross-Modal Causal Relational Reasoning for Event-Level Visual Question
Answering [134.91774666260338]
我々は,Cross-Modal Causal RelatIonal Reasoning (CMCIR) という新しいイベントレベルの視覚的質問応答フレームワークを提案する。
視覚的・言語的モダリティの因果構造を明らかにするために,新しい視覚言語推論モジュール(CVLR)を提案する。
論文 参考訳(メタデータ) (2022-07-26T04:25:54Z) - A Self-Guided Framework for Radiology Report Generation [10.573538773141715]
SGF(Self-Guided framework)は、注釈付き疾患ラベルによる医療報告を生成するために開発されたフレームワークである。
SGFは、人間の学習と執筆の過程を模倣するために、教師なしおよび教師なしのディープラーニング手法を使用している。
提案手法は,単語間の細粒度視覚的詳細を識別するためのフレームワークの能力を強調した。
論文 参考訳(メタデータ) (2022-06-19T11:09:27Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - AlignTransformer: Hierarchical Alignment of Visual Regions and Disease
Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。
パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文 参考訳(メタデータ) (2022-03-18T13:43:53Z) - Radiology Report Generation with a Learned Knowledge Base and
Multi-modal Alignment [27.111857943935725]
胸部X線からのレポート生成のための自動マルチモーダルアプローチを提案する。
本手法は,学習知識ベースとマルチモーダルアライメントの2つの異なるモジュールを特徴とする。
両モジュールの助けを借りて、我々のアプローチは明らかに最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2021-12-30T10:43:56Z) - Exploring and Distilling Posterior and Prior Knowledge for Radiology
Report Generation [55.00308939833555]
PPKEDには、Posterior Knowledge Explorer (PoKE), Prior Knowledge Explorer (PrKE), Multi-domain Knowledge Distiller (MKD)の3つのモジュールが含まれている。
PoKEは後部知識を探求し、視覚データのバイアスを軽減するために明確な異常な視覚領域を提供する。
PrKEは、以前の医学知識グラフ(医学知識)と以前の放射線学レポート(作業経験)から以前の知識を探り、テキストデータのバイアスを軽減する。
論文 参考訳(メタデータ) (2021-06-13T11:10:02Z) - Learning Visual-Semantic Embeddings for Reporting Abnormal Findings on
Chest X-rays [6.686095511538683]
本研究は放射線画像の異常所見の報告に焦点を当てる。
本稿では, レポートから異常な発見を識別し, 教師なしクラスタリングと最小限のルールで分類する手法を提案する。
本手法は, 異常所見を回収し, 臨床正当性およびテキスト生成量の両方で既存の世代モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-06T04:18:18Z) - Weakly supervised one-stage vision and language disease detection using
large scale pneumonia and pneumothorax studies [9.34633748515622]
我々は,MIMIC-CXRデータセット上に,新しい放射線学者のペア境界ボックスと自然言語アノテーションを提案する。
また、弱教師付きトランスフォーマー層選択型ワンステージデュアルヘッド検出アーキテクチャ(LITERATI)を提案する。
アーキテクチャの変更は、3つの障害に対処する - 教師付き視覚と言語検出を弱教師付きで実装し、臨床参照表現自然言語情報を取り入れ、マップ確率の高い忠実度検出を生成する。
論文 参考訳(メタデータ) (2020-07-31T00:04:14Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。