Fugu-MT 論文翻訳(概要): Cross-Modal Causal Intervention for Medical Report Generation

論文の概要: Cross-Modal Causal Intervention for Medical Report Generation

arxiv url: http://arxiv.org/abs/2303.09117v5
Date: Thu, 29 May 2025 08:27:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:07.212341
Title: Cross-Modal Causal Intervention for Medical Report Generation
Title（参考訳）: 医療報告作成のためのクロスモーダル・コースティック・インターベンション
Authors: Weixing Chen, Yang Liu, Ce Wang, Jiarui Zhu, Guanbin Li, Cheng-Lin Liu, Liang Lin,
Abstract要約: 放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。 IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
参考スコア（独自算出の注目度）: 107.76649943399168
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Radiology Report Generation (RRG) is essential for computer-aided diagnosis and medication guidance, which can relieve the heavy burden of radiologists by automatically generating the corresponding radiology reports according to the given radiology image. However, generating accurate lesion descriptions remains challenging due to spurious correlations from visual-linguistic biases and inherent limitations of radiological imaging, such as low resolution and noise interference. To address these issues, we propose a two-stage framework named CrossModal Causal Representation Learning (CMCRL), consisting of the Radiological Cross-modal Alignment and Reconstruction Enhanced (RadCARE) pre-training and the Visual-Linguistic Causal Intervention (VLCI) fine-tuning. In the pre-training stage, RadCARE introduces a degradation-aware masked image restoration strategy tailored for radiological images, which reconstructs high-resolution patches from low-resolution inputs to mitigate noise and detail loss. Combined with a multiway architecture and four adaptive training strategies (e.g., text postfix generation with degraded images and text prefixes), RadCARE establishes robust cross-modal correlations even with incomplete data. In the VLCI phase, we deploy causal front-door intervention through two modules: the Visual Deconfounding Module (VDM) disentangles local-global features without fine-grained annotations, while the Linguistic Deconfounding Module (LDM) eliminates context bias without external terminology databases. Experiments on IU-Xray and MIMIC-CXR show that our CMCRL pipeline significantly outperforms state-of-the-art methods, with ablation studies confirming the necessity of both stages. Code and models are available at https://github.com/WissingChen/CMCRL.
Abstract（参考訳）: 放射線医学報告生成(RRG)は, 放射線医の重荷を軽減し, 放射線医の診断・治療指導に不可欠である。しかし、視覚言語的バイアスと低分解能やノイズ干渉といった放射線画像の固有の限界から、正確な病変記述を生成することは依然として困難である。これらの課題に対処するため,RadCARE(RadCARE)事前学習とVLCI(Visual-Linguistic Causal Intervention)ファインチューニングからなる2段階のCrossModal Causal Representation Learning(CMCRL)を提案する。プレトレーニング段階において、RadCAREは、低解像度の入力から高解像度のパッチを再構築し、ノイズとディテールロスを緩和する、放射線画像に適した劣化認識マスク付き画像復元戦略を導入する。マルチウェイアーキテクチャと4つの適応的トレーニング戦略(例えば、劣化した画像とテキストプレフィックスによるテキストポストフィックス生成)を組み合わせることで、RadCAREは不完全なデータであっても堅牢な相互モーダル相関を確立する。 VLCI フェーズでは,視覚分解モジュール (Visual Deconfounding Module, VDM) は微粒なアノテーションを伴わずに,局所的言語機能をアンハングルするが,言語分解モジュール (LDM) は外部用語データベースなしでコンテキストバイアスを排除している。 IU-Xray と MIMIC-CXR の実験により, CMCRL パイプラインは最先端の手法よりも優れており, アブレーション試験により両段階の必要性が確認された。コードとモデルはhttps://github.com/WissingChen/CMCRL.comで入手できる。

関連論文リスト

DiA-gnostic VLVAE: Disentangled Alignment-Constrained Vision Language Variational AutoEncoder for Robust Radiology Reporting with Missing Modalities [3.5045368873011924]
本稿では,Dentangled Alignment を用いた頑健な放射線診断を行う DiA-gnostic VLVAE を提案する。我々のフレームワークは、共有機能とモダリティ固有の機能を混在させることにより、モダリティの欠如に耐性を持つように設計されている。コンパクトなLLaMA-Xデコーダは、これらの不整合表現を使用してレポートを効率的に生成する。
論文参考訳（メタデータ） (2025-11-08T11:08:27Z)
SimCroP: Radiograph Representation Learning with Similarity-driven Cross-granularity Pre-training [25.763109982379703]
胸部CTにおける類似性駆動型クロスグラニュラリティ事前学習フレームワークを提案する。類似性駆動アライメントとクロスグラニュラリティ融合を組み合わせて、ラジオグラフィーの解釈を改善する。 SimCroPは、大規模なペアCTレポートデータセットで事前トレーニングされ、画像分類とセグメンテーションタスクで検証される。
論文参考訳（メタデータ） (2025-09-10T06:20:53Z)
Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。 LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文参考訳（メタデータ） (2025-01-03T17:56:28Z)
CRRG-CLIP: Automatic Generation of Chest Radiology Reports and Classification of Chest Radiographs [2.1711205684359247]
CRRG-CLIPモデル(CRRG-CLIP Model)は、自動レポート生成とラジオグラフ分類のためのエンドツーエンドモデルである。生成モジュールは、Radiograph内の解剖学的領域を識別するためにFaster R-CNN、キー領域を選択するバイナリ分類器、セマンティックコヒーレントレポートを生成するためにGPT-2を使用する。分類モジュールは教師なしのContrastive Language Image Pretraining (CLIP)モデルを使用し、高価なラベル付きデータセットの課題に対処する。
論文参考訳（メタデータ） (2024-12-31T03:07:27Z)
HC-LLM: Historical-Constrained Large Language Models for Radiology Report Generation [89.3260120072177]
本稿では,放射線学レポート生成のための歴史制約付き大規模言語モデル (HC-LLM) フレームワークを提案する。胸部X線写真から経時的特徴と経時的特徴を抽出し,疾患の進行を捉える診断報告を行った。特に,本手法は,テスト中の履歴データなしでも良好に動作し,他のマルチモーダル大規模モデルにも容易に適用可能である。
論文参考訳（メタデータ） (2024-12-15T06:04:16Z)
Improving Factuality of 3D Brain MRI Report Generation with Paired Image-domain Retrieval and Text-domain Augmentation [42.13004422063442]
急性虚血性脳梗塞(AIS)は、時間的クリティカルな管理を必要とし、数時間の介入が遅れて、患者の不可逆的な障害につながる。磁気共鳴画像(MRI)を用いた拡散強調画像(DWI)はAISの検出において重要な役割を担っているため,DWIからのAISの自動予測は臨床的に重要な課題となっている。画像所見から最も関連性の高い臨床情報を含むテキストラジオグラフィー報告では, 従来のDWI-to-report 生成法では, 異なるモダリティのマッピングが困難であった。
論文参考訳（メタデータ） (2024-11-23T08:18:55Z)
TRRG: Towards Truthful Radiology Report Generation With Cross-modal Disease Clue Enhanced Large Language Model [22.305034251561835]
そこで我々は,大規模言語モデルへのクロスモーダル病ヒントインジェクションの段階的訓練に基づく,真正な放射線学レポート生成フレームワークTRRGを提案する。提案フレームワークは,IU-XrayやMIMIC-CXRなどのデータセットを用いた放射線学レポート生成において,最先端の性能を実現する。
論文参考訳（メタデータ） (2024-08-22T05:52:27Z)
Structural Entities Extraction and Patient Indications Incorporation for Chest X-ray Report Generation [10.46031380503486]
胸部X線レポート生成のための新しい方法である textbfStructural textbfEntities 抽出法と textbfIncorporation (SEI) を考案した。我々は、レポートにおけるプレゼンテーションスタイルの語彙を排除するために、構造エンティティ抽出(SEE)アプローチを採用する。我々は,X線画像,類似の歴史的症例,患者固有の指標からの情報を統合するクロスモーダル融合ネットワークを提案する。
論文参考訳（メタデータ） (2024-05-23T01:29:47Z)
SERPENT-VLM : Self-Refining Radiology Report Generation Using Vision Language Models [9.390882250428305]
放射線学報告生成(R2Gen)は、マルチモーダル大言語モデル(MLLM)が正確で一貫性のある放射線学レポートの作成をいかに自動化できるかを示す。既存の方法は、しばしば画像内容を正確に反映しないテキストベースのレポートで詳細を幻覚させる。本稿では,自己修復機構をMLLMフレームワークに統合することにより,R2Genタスクを改善する新しい戦略を提案する。
論文参考訳（メタデータ） (2024-04-27T13:46:23Z)
DPER: Diffusion Prior Driven Neural Representation for Limited Angle and Sparse View CT Reconstruction [45.00528216648563]
Diffusion Prior Driven Neural Representation (DPER) は、異常に不適切なCT再構成逆問題に対処するために設計された、教師なしのフレームワークである。 DPERは、半二次分割法(HQS)アルゴリズムを採用し、逆問題からデータ忠実度とサブプロブレム前の分布に分解する。 LACTにおけるDPERの性能評価と2つの公開データセットを用いた超SVCT再構成に関する総合的な実験を行った。
論文参考訳（メタデータ） (2024-04-27T12:55:13Z)
Dynamic Traceback Learning for Medical Report Generation [12.746275623663289]
本研究では,医療報告生成のための新しいマルチモーダル動的トレースバック学習フレームワークDTraceを提案する。生成したコンテンツのセマンティックな妥当性を監視するためのトレースバック機構と、画像やテキスト入力の様々な割合に適応するための動的学習戦略を導入する。提案するDTraceフレームワークは,医療報告生成の最先端手法より優れている。
論文参考訳（メタデータ） (2024-01-24T07:13:06Z)
Medical Report Generation based on Segment-Enhanced Contrastive Representation Learning [39.17345313432545]
臓器, 異常, 骨等を分類するためのMSCL(医学画像とコントラスト学習)を提案する。トレーニング中にターゲットとセマンティックに類似したレポートにより多くの重みを割り当てる教師付きコントラスト損失を導入する。実験の結果,提案手法の有効性が示され,IU X線公開データセット上での最先端性能が得られた。
論文参考訳（メタデータ） (2023-12-26T03:33:48Z)
Radiology Report Generation Using Transformers Conditioned with Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文参考訳（メタデータ） (2023-11-18T14:52:26Z)
Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology Report Generation [48.723504098917324]
マルチレベル・クロスモーダルアライメントを学習するためのUnify, Align, then Refine (UAR)アプローチを提案する。本稿では,Latent Space Unifier,Cross-modal Representation Aligner,Text-to-Image Refinerの3つの新しいモジュールを紹介する。 IU-XrayおよびMIMIC-CXRベンチマークデータセットの実験と解析は、UARの様々な最先端手法に対する優位性を実証している。
論文参考訳（メタデータ） (2023-03-28T12:42:12Z)
Dynamic Graph Enhanced Contrastive Learning for Chest X-ray Report Generation [92.73584302508907]
コントラスト学習を用いた医療レポート作成を支援するために,動的構造とノードを持つ知識グラフを提案する。詳しくは、グラフの基本構造は一般知識から事前構築される。各イメージ機能は、レポート生成のためにデコーダモジュールに入力する前に、独自の更新グラフに統合される。
論文参考訳（メタデータ） (2023-03-18T03:53:43Z)
Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文参考訳（メタデータ） (2022-09-28T10:27:10Z)
Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering [134.91774666260338]
既存の視覚的質問応答法は、しばしばクロスモーダルなスプリアス相関と過度に単純化されたイベントレベルの推論プロセスに悩まされる。本稿では,イベントレベルの視覚的質問応答の課題に対処するために,モーダルな因果関係推論のためのフレームワークを提案する。
論文参考訳（メタデータ） (2022-07-26T04:25:54Z)
Radiomics-Guided Global-Local Transformer for Weakly Supervised Pathology Localization in Chest X-Rays [65.88435151891369]
Radiomics-Guided Transformer (RGT)は、テキストトグロバル画像情報と、テキストトグロバル情報とを融合する。 RGTは、画像トランスフォーマーブランチ、放射能トランスフォーマーブランチ、および画像と放射線情報を集約する融合層から構成される。
論文参考訳（メタデータ） (2022-07-10T06:32:56Z)
AlignTransformer: Hierarchical Alignment of Visual Regions and Disease Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文参考訳（メタデータ） (2022-03-18T13:43:53Z)
Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。 ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文参考訳（メタデータ） (2020-06-06T01:00:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。