論文の概要: Making medical vision-language models think causally across modalities with retrieval-augmented cross-modal reasoning
- arxiv url: http://arxiv.org/abs/2601.18356v1
- Date: Mon, 26 Jan 2026 11:03:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.788677
- Title: Making medical vision-language models think causally across modalities with retrieval-augmented cross-modal reasoning
- Title(参考訳): 医用ヴィジュアル言語モデルの構築 : 検索強化型クロスモーダル推論を用いて
- Authors: Weiqin Yang, Haowen Xue, Qingyi Peng, Hexuan Hu, Qian Huang, Tingbo Zhang,
- Abstract要約: 医用視覚言語モデル(VLM)は,診断報告や画像テキストアライメントにおいて高い性能を発揮する。
その根底にある推論機構は、基本的に相関関係にあり、表面的な統計的関連に頼っている。
因果推論の原理とマルチモーダル検索を統合するフレームワークであるMultimodal Causal Retrieval-Augmented Generationを提案する。
- 参考スコア(独自算出の注目度): 16.243806723551454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical vision-language models (VLMs) achieve strong performance in diagnostic reporting and image-text alignment, yet their underlying reasoning mechanisms remain fundamentally correlational, exhibiting reliance on superficial statistical associations that fail to capture the causal pathophysiological mechanisms central to clinical decision-making. This limitation makes them fragile, prone to hallucinations, and sensitive to dataset biases. Retrieval-augmented generation (RAG) offers a partial remedy by grounding predictions in external knowledge. However, conventional RAG depends on semantic similarity, introducing new spurious correlations. We propose Multimodal Causal Retrieval-Augmented Generation, a framework that integrates causal inference principles with multimodal retrieval. It retrieves clinically relevant exemplars and causal graphs from external sources, conditioning model reasoning on counterfactual and interventional evidence rather than correlations alone. Applied to radiology report generation, diagnosis prediction, and visual question answering, it improves factual accuracy, robustness to distribution shifts, and interpretability. Our results highlight causal retrieval as a scalable path toward medical VLMs that think beyond pattern matching, enabling trustworthy multimodal reasoning in high-stakes clinical settings.
- Abstract(参考訳): 医用視覚言語モデル(VLM)は、診断報告や画像テキストアライメントにおいて強力な性能を発揮するが、その根底にある推論メカニズムは基本的に相関関係にあり、臨床的な意思決定の中心となる因果的病態のメカニズムを捉えるのに失敗する表面的な統計的関連性に依存している。
この制限により、それらは脆弱になり、幻覚を起こしやすく、データセットのバイアスに敏感になる。
Retrieval-augmented Generation (RAG) は、外部知識の予測を基礎にすることで部分的な治療を提供する。
しかし、従来のRAGは意味的類似性に依存し、新たな突発的相関を導入した。
因果推論の原理とマルチモーダル検索を統合するフレームワークであるMultimodal Causal Retrieval-Augmented Generationを提案する。
臨床に関係のある先例や因果グラフを外部ソースから検索し、相関のみではなく、反事実的および介入的証拠を推論する条件付けモデルを作成する。
放射線学レポートの生成、診断予測、視覚的質問応答に適用すると、実際の精度、分布シフトに対する堅牢性、解釈可能性が改善される。
本研究は, 因果検索を, パターンマッチングを超えた医療用VLMへのスケーラブルな経路として強調し, 信頼性の高いマルチモーダル推論を可能にした。
関連論文リスト
- Causal Graph Neural Networks for Healthcare [2.446787923076599]
因果グラフニューラルネットワークは、分布シフト、差別、調査可能性の三つの危機に対処する。
本稿では, 構造因果モデル, 絡み合った因果表現学習, およびグラフ上の介入予測と反実的推論のための手法の方法論的基礎について検討する。
論文 参考訳(メタデータ) (2025-11-04T12:34:46Z) - Predictive Causal Inference via Spatio-Temporal Modeling and Penalized Empirical Likelihood [0.0]
本研究では,従来の単一モデルアプローチの制約を克服する目的で設計された,予測因果推論のための統合フレームワークを提案する。
具体的には、空間的健康状態推定のための隠れマルコフモデルと、時間的結果の軌跡を捉えるためのマルチタスクとマルチグラフ畳み込みネットワーク(MTGCN)を組み合わせる。
有用性を示すために,がん,認知症,パーキンソン病などの臨床領域に焦点を当て,治療効果を直接観察することが困難である。
論文 参考訳(メタデータ) (2025-07-11T03:11:15Z) - Causal Disentanglement for Robust Long-tail Medical Image Generation [80.15257897500578]
そこで本研究では,病的特徴と構造的特徴を独立に生成する新しい医用画像生成フレームワークを提案する。
本稿では,病理所見から導かれる拡散モデルを用いて病理像をモデル化し,種々の対物画像の生成を可能にする。
論文 参考訳(メタデータ) (2025-04-20T01:54:18Z) - Quantifying Symptom Causality in Clinical Decision Making: An Exploration Using CausaLM [0.0]
医学的診断に対する現在の機械学習のアプローチは、しばしば症状と疾患の間の相関パターンに依存する。
本研究は,主症状特異的に「ケスト痛み」が診断予測に与える影響について,相関性を超えて検討する。
論文 参考訳(メタデータ) (2025-03-25T06:59:21Z) - Rethinking Radiology Report Generation via Causal Inspired Counterfactual Augmentation [11.266364967223556]
放射線医学報告生成(RRG)は、生体医学分野の視覚・言語相互作用として注目されている。
従来の言語生成タスクのイデオロギーは、レポートとして高い可読性を持つ段落を生成することを目的として、従来の言語生成タスクのイデオロギーを継承した。
RRGの特定の性質である病気間の独立性は無視され、偏りのあるデータ分布によって引き起こされる病気の共起によってモデルが混乱する結果となった。
論文 参考訳(メタデータ) (2023-11-22T10:55:36Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Bayesian Networks for the robust and unbiased prediction of depression
and its symptoms utilizing speech and multimodal data [65.28160163774274]
我々は,抑うつ,抑うつ症状,および,胸腺で収集された音声,表情,認知ゲームデータから得られる特徴の関連性を把握するためにベイズ的枠組みを適用した。
論文 参考訳(メタデータ) (2022-11-09T14:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。