論文の概要: Medical Report Generation: A Hierarchical Task Structure-Based Cross-Modal Causal Intervention Framework
- arxiv url: http://arxiv.org/abs/2511.02271v1
- Date: Tue, 04 Nov 2025 05:24:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.816035
- Title: Medical Report Generation: A Hierarchical Task Structure-Based Cross-Modal Causal Intervention Framework
- Title(参考訳): 医療報告生成:階層型タスク構造に基づくクロスモーダル因果干渉フレームワーク
- Authors: Yucheng Song, Yifan Ge, Junhao Li, Zhining Liao, Zhifang Liao,
- Abstract要約: 医療報告生成(MRG)は、放射線医の負担を軽減するため、放射線画像から自動的に報告を生成するため、現代の医療診断において重要な部分である。
従来の作業は1つの課題にのみ対処するが、この記事では新しい階層的なタスク分解アプローチを通じて3つの課題に対処する。
HTSC-CIFは3つの課題を低、中、高レベルのタスクに分類する。
実験により,HTSC-CIFの有効性が確認された。
- 参考スコア(独自算出の注目度): 6.202276193424719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical Report Generation (MRG) is a key part of modern medical diagnostics, as it automatically generates reports from radiological images to reduce radiologists' burden. However, reliable MRG models for lesion description face three main challenges: insufficient domain knowledge understanding, poor text-visual entity embedding alignment, and spurious correlations from cross-modal biases. Previous work only addresses single challenges, while this paper tackles all three via a novel hierarchical task decomposition approach, proposing the HTSC-CIF framework. HTSC-CIF classifies the three challenges into low-, mid-, and high-level tasks: 1) Low-level: align medical entity features with spatial locations to enhance domain knowledge for visual encoders; 2) Mid-level: use Prefix Language Modeling (text) and Masked Image Modeling (images) to boost cross-modal alignment via mutual guidance; 3) High-level: a cross-modal causal intervention module (via front-door intervention) to reduce confounders and improve interpretability. Extensive experiments confirm HTSC-CIF's effectiveness, significantly outperforming state-of-the-art (SOTA) MRG methods. Code will be made public upon paper acceptance.
- Abstract(参考訳): 医療報告生成(MRG)は、放射線医の負担を軽減するため、放射線画像から自動的に報告を生成するため、現代の医療診断において重要な部分である。
しかし、病変記述のための信頼できるMRGモデルは、ドメイン知識の不十分な理解、テキスト-視覚的実体の埋め込みアライメントの貧弱、モーダル間のバイアスからの急激な相関の3つの主な課題に直面している。
本稿は,HTSC-CIFフレームワークを提唱する新しい階層型タスク分解アプローチを通じて,これら3つの課題に対処する。
HTSC-CIFは3つの課題を、低、中、高レベルのタスクに分類する。
1)低レベル:視覚エンコーダの領域知識を高めるため、医療機関の特徴を空間的位置と整合させる。
2 中間レベル:相互指導による相互調整を促進するために、前置言語モデリング(テキスト)及び仮面画像モデリング(画像)を用いる。
3) ハイレベル: 共同創設者を減らし、解釈可能性を向上させるための(フロントドア介入による)クロスモーダル因果介入モジュール。
HTSC-CIFの有効性を確認し,SOTA(State-of-the-art)MRG法よりも優れていた。
コードは受理後に公にされる。
関連論文リスト
- RTGMFF: Enhanced fMRI-based Brain Disorder Diagnosis via ROI-driven Text Generation and Multimodal Feature Fusion [13.589735978929085]
RTGMFFは自動ROIレベルのテキスト生成とマルチモーダルな特徴融合を統合化して脳障害診断を行うフレームワークである。
RTGMFFは診断精度において現在の手法を上回り、感度、特異性、およびROC曲線下における領域の顕著な向上を達成している。
論文 参考訳(メタデータ) (2025-09-03T11:05:57Z) - MAISI-v2: Accelerated 3D High-Resolution Medical Image Synthesis with Rectified Flow and Region-specific Contrastive Loss [16.360253449683814]
MAISI-v2は,修正フローを統合し,高速かつ高品質な生成を可能にする最初の3次元医用画像合成フレームワークである。
実験の結果,MAISI-v2 は潜時拡散モデルに対して 3 倍の加速で SOTA の画質を達成できることがわかった。
また,データ拡張に合成画像が使用できることを示すために,下流セグメンテーション実験を行った。
論文 参考訳(メタデータ) (2025-08-07T18:39:45Z) - FCaS: Fine-grained Cardiac Image Synthesis based on 3D Template Conditional Diffusion Model [23.9686884119236]
本稿では,3次元テンプレート条件付き拡散モデル上に構築された細粒度心臓画像合成フレームワークを提案する。
FCaSはテンプレート誘導条件拡散モデル(TCDM)を用いた正確な心構造生成を実現する
本稿では,不正確な合成画像による混乱を軽減するために,信頼を意識した適応学習(CAL)戦略を提案する。
論文 参考訳(メタデータ) (2025-03-12T17:25:09Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Super-Resolution Based Patch-Free 3D Image Segmentation with
High-Frequency Guidance [20.86089285980103]
磁気共鳴画像(MRI)やCT(CT)などの医用画像など,近年,高分解能(HR)3D画像が広く利用されている。
論文 参考訳(メタデータ) (2022-10-26T11:46:08Z) - InDuDoNet+: A Model-Driven Interpretable Dual Domain Network for Metal
Artifact Reduction in CT Images [53.4351366246531]
InDuDoNet+と呼ばれる新しい解釈可能な二重ドメインネットワークを構築し、CT画像の微細な埋め込みを行う。
異なる組織間のCT値を分析し,InDuDoNet+の事前観測ネットワークにマージすることで,その一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-23T15:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。