Fugu-MT 論文翻訳(概要): Cross-Modal Causal Intervention for Medical Report Generation

論文の概要: Cross-Modal Causal Intervention for Medical Report Generation

arxiv url: http://arxiv.org/abs/2303.09117v4
Date: Wed, 28 Feb 2024 08:57:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 19:22:43.134091
Title: Cross-Modal Causal Intervention for Medical Report Generation
Title（参考訳）: 医療報告作成のためのクロスモーダル因果介入
Authors: Weixing Chen, Yang Liu, Ce Wang, Jiarui Zhu, Shen Zhao, Guanbin Li, Cheng-Lin Liu and Liang Lin
Abstract要約: 医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
参考スコア（独自算出の注目度）: 109.83549148448469
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Medical report generation (MRG) is essential for computer-aided diagnosis and medication guidance, which can relieve the heavy burden of radiologists by automatically generating the corresponding medical reports according to the given radiology image. However, due to the spurious correlations within image-text data induced by visual and linguistic biases, it is challenging to generate accurate reports reliably describing lesion areas. Moreover, the cross-modal confounders are usually unobservable and challenging to be eliminated explicitly. In this paper, we aim to mitigate the cross-modal data bias for MRG from a new perspective, i.e., cross-modal causal intervention, and propose a novel Visual-Linguistic Causal Intervention (VLCI) framework for MRG, which consists of a visual deconfounding module (VDM) and a linguistic deconfounding module (LDM), to implicitly mitigate the visual-linguistic confounders by causal front-door intervention. Specifically, due to the absence of a generalized semantic extractor, the VDM explores and disentangles the visual confounders from the patch-based local and global features without expensive fine-grained annotations. Simultaneously, due to the lack of knowledge encompassing the entire field of medicine, the LDM eliminates the linguistic confounders caused by salient visual features and high-frequency context without constructing a terminology database. Extensive experiments on IU-Xray and MIMIC-CXR datasets show that our VLCI significantly outperforms the state-of-the-art MRG methods. The code and models are available at https://github.com/WissingChen/VLCI.
Abstract（参考訳）: 医療報告生成(MRG)は、放射線医の重荷を軽減し、所定の放射線画像に従って対応する医療報告を自動生成するコンピュータ支援診断および医薬指導に不可欠である。しかし,視覚・言語バイアスによって引き起こされる画像テキストデータのスプリアス相関から,病変領域を正確に記述する正確なレポートの作成が困難である。さらに、クロスモーダルな共同創設者は通常観察不能であり、明示的に排除することは困難である。本稿では,MRGのクロスモーダルデータバイアス,すなわちクロスモーダル因果介入を新たな視点から緩和し,視覚的疎結合モジュール(VDM)と言語的疎結合モジュール(LDM)からなるMRGのための新しい視覚言語因果干渉(VLCI)フレームワークを提案する。具体的には、汎用的な意味抽出器がないため、vdmは高価な細かなアノテーションを使わずにパッチベースのローカルおよびグローバル機能からvisual confoundersを探索し、分離する。同時に、医学の分野全体を包含する知識の欠如により、ldmは用語データベースを構築することなく、突出した視覚特徴と高周波コンテキストによって引き起こされる言語共起者を排除している。 IU-XrayとMIMIC-CXRデータセットの大規模な実験により、我々のVLCIは最先端のMRG法よりも大幅に優れていることが示された。コードとモデルはhttps://github.com/WissingChen/VLCIで入手できる。

関連論文リスト

DiA-gnostic VLVAE: Disentangled Alignment-Constrained Vision Language Variational AutoEncoder for Robust Radiology Reporting with Missing Modalities [3.5045368873011924]
本稿では,Dentangled Alignment を用いた頑健な放射線診断を行う DiA-gnostic VLVAE を提案する。我々のフレームワークは、共有機能とモダリティ固有の機能を混在させることにより、モダリティの欠如に耐性を持つように設計されている。コンパクトなLLaMA-Xデコーダは、これらの不整合表現を使用してレポートを効率的に生成する。
論文参考訳（メタデータ） (2025-11-08T11:08:27Z)
SimCroP: Radiograph Representation Learning with Similarity-driven Cross-granularity Pre-training [25.763109982379703]
胸部CTにおける類似性駆動型クロスグラニュラリティ事前学習フレームワークを提案する。類似性駆動アライメントとクロスグラニュラリティ融合を組み合わせて、ラジオグラフィーの解釈を改善する。 SimCroPは、大規模なペアCTレポートデータセットで事前トレーニングされ、画像分類とセグメンテーションタスクで検証される。
論文参考訳（メタデータ） (2025-09-10T06:20:53Z)
Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。 LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文参考訳（メタデータ） (2025-01-03T17:56:28Z)
CRRG-CLIP: Automatic Generation of Chest Radiology Reports and Classification of Chest Radiographs [2.1711205684359247]
CRRG-CLIPモデル(CRRG-CLIP Model)は、自動レポート生成とラジオグラフ分類のためのエンドツーエンドモデルである。生成モジュールは、Radiograph内の解剖学的領域を識別するためにFaster R-CNN、キー領域を選択するバイナリ分類器、セマンティックコヒーレントレポートを生成するためにGPT-2を使用する。分類モジュールは教師なしのContrastive Language Image Pretraining (CLIP)モデルを使用し、高価なラベル付きデータセットの課題に対処する。
論文参考訳（メタデータ） (2024-12-31T03:07:27Z)
HC-LLM: Historical-Constrained Large Language Models for Radiology Report Generation [89.3260120072177]
本稿では,放射線学レポート生成のための歴史制約付き大規模言語モデル (HC-LLM) フレームワークを提案する。胸部X線写真から経時的特徴と経時的特徴を抽出し,疾患の進行を捉える診断報告を行った。特に,本手法は,テスト中の履歴データなしでも良好に動作し,他のマルチモーダル大規模モデルにも容易に適用可能である。
論文参考訳（メタデータ） (2024-12-15T06:04:16Z)
Improving Factuality of 3D Brain MRI Report Generation with Paired Image-domain Retrieval and Text-domain Augmentation [42.13004422063442]
急性虚血性脳梗塞(AIS)は、時間的クリティカルな管理を必要とし、数時間の介入が遅れて、患者の不可逆的な障害につながる。磁気共鳴画像(MRI)を用いた拡散強調画像(DWI)はAISの検出において重要な役割を担っているため,DWIからのAISの自動予測は臨床的に重要な課題となっている。画像所見から最も関連性の高い臨床情報を含むテキストラジオグラフィー報告では, 従来のDWI-to-report 生成法では, 異なるモダリティのマッピングが困難であった。
論文参考訳（メタデータ） (2024-11-23T08:18:55Z)
TRRG: Towards Truthful Radiology Report Generation With Cross-modal Disease Clue Enhanced Large Language Model [22.305034251561835]
そこで我々は,大規模言語モデルへのクロスモーダル病ヒントインジェクションの段階的訓練に基づく,真正な放射線学レポート生成フレームワークTRRGを提案する。提案フレームワークは,IU-XrayやMIMIC-CXRなどのデータセットを用いた放射線学レポート生成において,最先端の性能を実現する。
論文参考訳（メタデータ） (2024-08-22T05:52:27Z)
Structural Entities Extraction and Patient Indications Incorporation for Chest X-ray Report Generation [10.46031380503486]
胸部X線レポート生成のための新しい方法である textbfStructural textbfEntities 抽出法と textbfIncorporation (SEI) を考案した。我々は、レポートにおけるプレゼンテーションスタイルの語彙を排除するために、構造エンティティ抽出(SEE)アプローチを採用する。我々は,X線画像,類似の歴史的症例,患者固有の指標からの情報を統合するクロスモーダル融合ネットワークを提案する。
論文参考訳（メタデータ） (2024-05-23T01:29:47Z)
SERPENT-VLM : Self-Refining Radiology Report Generation Using Vision Language Models [9.390882250428305]
放射線学報告生成(R2Gen)は、マルチモーダル大言語モデル(MLLM)が正確で一貫性のある放射線学レポートの作成をいかに自動化できるかを示す。既存の方法は、しばしば画像内容を正確に反映しないテキストベースのレポートで詳細を幻覚させる。本稿では,自己修復機構をMLLMフレームワークに統合することにより,R2Genタスクを改善する新しい戦略を提案する。
論文参考訳（メタデータ） (2024-04-27T13:46:23Z)
DPER: Diffusion Prior Driven Neural Representation for Limited Angle and Sparse View CT Reconstruction [45.00528216648563]
Diffusion Prior Driven Neural Representation (DPER) は、異常に不適切なCT再構成逆問題に対処するために設計された、教師なしのフレームワークである。 DPERは、半二次分割法(HQS)アルゴリズムを採用し、逆問題からデータ忠実度とサブプロブレム前の分布に分解する。 LACTにおけるDPERの性能評価と2つの公開データセットを用いた超SVCT再構成に関する総合的な実験を行った。
論文参考訳（メタデータ） (2024-04-27T12:55:13Z)
Dynamic Traceback Learning for Medical Report Generation [12.746275623663289]
本研究では,医療報告生成のための新しいマルチモーダル動的トレースバック学習フレームワークDTraceを提案する。生成したコンテンツのセマンティックな妥当性を監視するためのトレースバック機構と、画像やテキスト入力の様々な割合に適応するための動的学習戦略を導入する。提案するDTraceフレームワークは,医療報告生成の最先端手法より優れている。
論文参考訳（メタデータ） (2024-01-24T07:13:06Z)
Medical Report Generation based on Segment-Enhanced Contrastive Representation Learning [39.17345313432545]
臓器, 異常, 骨等を分類するためのMSCL(医学画像とコントラスト学習)を提案する。トレーニング中にターゲットとセマンティックに類似したレポートにより多くの重みを割り当てる教師付きコントラスト損失を導入する。実験の結果,提案手法の有効性が示され,IU X線公開データセット上での最先端性能が得られた。
論文参考訳（メタデータ） (2023-12-26T03:33:48Z)
Radiology Report Generation Using Transformers Conditioned with Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文参考訳（メタデータ） (2023-11-18T14:52:26Z)
Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology Report Generation [48.723504098917324]
マルチレベル・クロスモーダルアライメントを学習するためのUnify, Align, then Refine (UAR)アプローチを提案する。本稿では,Latent Space Unifier,Cross-modal Representation Aligner,Text-to-Image Refinerの3つの新しいモジュールを紹介する。 IU-XrayおよびMIMIC-CXRベンチマークデータセットの実験と解析は、UARの様々な最先端手法に対する優位性を実証している。
論文参考訳（メタデータ） (2023-03-28T12:42:12Z)
Dynamic Graph Enhanced Contrastive Learning for Chest X-ray Report Generation [92.73584302508907]
コントラスト学習を用いた医療レポート作成を支援するために,動的構造とノードを持つ知識グラフを提案する。詳しくは、グラフの基本構造は一般知識から事前構築される。各イメージ機能は、レポート生成のためにデコーダモジュールに入力する前に、独自の更新グラフに統合される。
論文参考訳（メタデータ） (2023-03-18T03:53:43Z)
Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文参考訳（メタデータ） (2022-09-28T10:27:10Z)
Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering [134.91774666260338]
既存の視覚的質問応答法は、しばしばクロスモーダルなスプリアス相関と過度に単純化されたイベントレベルの推論プロセスに悩まされる。本稿では,イベントレベルの視覚的質問応答の課題に対処するために,モーダルな因果関係推論のためのフレームワークを提案する。
論文参考訳（メタデータ） (2022-07-26T04:25:54Z)
Radiomics-Guided Global-Local Transformer for Weakly Supervised Pathology Localization in Chest X-Rays [65.88435151891369]
Radiomics-Guided Transformer (RGT)は、テキストトグロバル画像情報と、テキストトグロバル情報とを融合する。 RGTは、画像トランスフォーマーブランチ、放射能トランスフォーマーブランチ、および画像と放射線情報を集約する融合層から構成される。
論文参考訳（メタデータ） (2022-07-10T06:32:56Z)
AlignTransformer: Hierarchical Alignment of Visual Regions and Disease Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文参考訳（メタデータ） (2022-03-18T13:43:53Z)
Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。 ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文参考訳（メタデータ） (2020-06-06T01:00:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。