論文の概要: Dual Causal Inference: Integrating Backdoor Adjustment and Instrumental Variable Learning for Medical VQA
- arxiv url: http://arxiv.org/abs/2604.20306v1
- Date: Wed, 22 Apr 2026 08:07:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.030995
- Title: Dual Causal Inference: Integrating Backdoor Adjustment and Instrumental Variable Learning for Medical VQA
- Title(参考訳): 二重因果推論:医療用VQAにおけるバックドア調整とインストゥルメンタル変数学習の統合
- Authors: Zibo Xu, Qiang Li, Ke Lu, Jin Wang, Weizhi Nie, Yuting Su,
- Abstract要約: MedVQAのための新しいDual Causal Inference(DCI)フレームワークを提案する。
DCIは、Backdoor Adjustment (BDA)とInstrumental Variable (IV)の学習を統合して、観測可能と観測不能の両方の共同設立者に取り組む。
我々の手法は既存の手法より一貫して優れている。
- 参考スコア(独自算出の注目度): 31.036981541328988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical Visual Question Answering (MedVQA) aims to generate clinically reliable answers conditioned on complex medical images and questions. However, existing methods often overfit to superficial cross-modal correlations, neglecting the intrinsic biases embedded in multimodal medical data. Consequently, models become vulnerable to cross-modal confounding effects, severely hindering their ability to provide trustworthy diagnostic reasoning. To address this limitation, we propose a novel Dual Causal Inference (DCI) framework for MedVQA. To the best of our knowledge, DCI is the first unified architecture that integrates Backdoor Adjustment (BDA) and Instrumental Variable (IV) learning to jointly tackle both observable and unobserved confounders. Specifically, we formulate a Structural Causal Model (SCM) where observable cross-modal biases (e.g., frequent visual and textual co-occurrences) are mitigated via BDA, while unobserved confounders are compensated using an IV learned from a shared latent space. To guarantee the validity of the IV, we design mutual information constraints that maximize its dependence on the fused multimodal representations while minimizing its associations with the unobserved confounders and target answers. Through this dual mechanism, DCI extracts deconfounded representations that capture genuine causal relationships. Extensive experiments on four benchmark datasets, SLAKE, SLAKE-CP, VQA-RAD, and PathVQA, demonstrate that our method consistently outperforms existing approaches, particularly in out-of-distribution (OOD) generalization. Furthermore, qualitative analyses confirm that DCI significantly enhances the interpretability and robustness of cross-modal reasoning by explicitly disentangling true causal effects from spurious cross-modal shortcuts.
- Abstract(参考訳): MedVQA (MedVQA) は、複雑な医療画像や質問に対して、臨床的に信頼性の高い回答を生成することを目的としている。
しかし、既存の手法はしばしば表面的な相互モーダル相関に適合し、マルチモーダル医療データに埋め込まれた本質的なバイアスを無視する。
その結果、モデルはクロスモーダルなコンバウンディング効果に対して脆弱になり、信頼できる診断推論を提供する能力が著しく阻害される。
この制限に対処するため、MedVQAのための新しいDual Causal Inference(DCI)フレームワークを提案する。
私たちの知る限りでは、DCIは、バックドア調整(BDA)とインストゥルメンタルバリアブル(IV)の学習を統合して、観測不可能な共同創設者と観測不能な共同創設者の両方に共同で取り組む、最初の統一アーキテクチャです。
具体的には、観測可能なクロスモーダルバイアス(例えば、頻繁な視覚的・テキスト的共起)をBDAで緩和する構造因果モデル(Structure Causal Model, SCM)を定式化する。
本研究は,IV の妥当性を保証するため,融合した多モーダル表現への依存度を最大化する相互情報制約を設計し,未保存の共同設立者との関連性を最小化し,回答を目標とする。
この2つのメカニズムを通じて、DCIは真の因果関係を捉える非融合表現を抽出する。
SLAKE,SLAKE-CP,VQA-RAD,PathVQAの4つのベンチマークデータセットに対する大規模な実験により,本手法が既存のアプローチ,特にアウト・オブ・ディストリビューション(OOD)の一般化を一貫して上回ることを示した。
さらに、定性的分析により、DCIは、急激なクロスモーダルショートカットから真の因果効果を明示的に引き離すことにより、クロスモーダル推論の解釈可能性と堅牢性を大幅に向上させることを確認した。
関連論文リスト
- Causal Bootstrapped Alignment for Unsupervised Video-Based Visible-Infrared Person Re-Identification [52.784239635604735]
VVI-ReIDは、静止画像以外にも時間情報が付加的な手がかりを提供する、全日監視のための重要な技術である。
既存のアプローチは、高価なクロスモダリティアノテーションによる完全な教師付き学習に大きく依存しており、スケーラビリティが制限されています。
そこで,本研究では,ビデオの先行を明示的に活用するCausal Bootstrapped Alignmentフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-17T02:15:59Z) - MedCausalX: Adaptive Causal Reasoning with Self-Reflection for Trustworthy Medical Vision-Language Models [10.466505116993451]
既存の医療連鎖モデルには因果推論を表現・強制するための明確なメカニズムが欠如している。
MedCausalXは医療用VLMの因果推論チェーンを明示的にモデル化したエンドツーエンドフレームワークである。
我々は,MedCausalXが常に最先端の手法より優れ,診断の整合性は+5.4ポイント向上し,幻覚は10ポイント以上減少し,最上位の空間接地IoUに達することを示す。
論文 参考訳(メタデータ) (2026-03-24T11:28:15Z) - Robust Multimodal Representation Learning in Healthcare [12.190907451083765]
実世界の医療データセットは、一般的に複数のソースからの体系的なバイアスを含む。
本稿では,バイアスを特定し,対処するDual-Stream Feature Deorrelation Frameworkを提案する。
本手法では,因果関係から因果関係を解き放つために,因果関係のデコリレーション・フレームワークとデュアルストリームニューラルネットワークを用いる。
論文 参考訳(メタデータ) (2026-01-29T16:27:54Z) - Making medical vision-language models think causally across modalities with retrieval-augmented cross-modal reasoning [16.243806723551454]
医用視覚言語モデル(VLM)は,診断報告や画像テキストアライメントにおいて高い性能を発揮する。
その根底にある推論機構は、基本的に相関関係にあり、表面的な統計的関連に頼っている。
因果推論の原理とマルチモーダル検索を統合するフレームワークであるMultimodal Causal Retrieval-Augmented Generationを提案する。
論文 参考訳(メタデータ) (2026-01-26T11:03:00Z) - CKDA: Cross-modality Knowledge Disentanglement and Alignment for Visible-Infrared Lifelong Person Re-identification [77.07028925223383]
生涯にわたる人物再識別は、異なるシナリオから継続的に収集された個々のデータを同一人物と一致させることを目的としている。
日夜の連続した日中マッチングを実現するために、Visible-Infrared Lifelong person Re-IDentification (VI-LReID) は、可視および赤外線モダリティからのデータのシーケンシャルトレーニングに重点を置いている。
既存の方法は、伝統的知識の破滅的な忘れを和らげるために、クロスモーダルな知識蒸留を利用するのが一般的である。
論文 参考訳(メタデータ) (2025-11-19T01:30:29Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Coherent Multimodal Reasoning with Iterative Self-Evaluation for Vision-Language Models [4.064135211977999]
大規模言語モデル (LLMs) と視覚言語モデル (LVLMs) は複雑で多段階のクロスモーダルな常識推論タスクに苦しむ。
我々は,LVLMの共通感覚推論能力を高める新しいアプローチであるコヒーレント・マルチモーダル推論フレームワーク(CMRF)を提案する。
CMRFは複雑なクエリを分解し、ステップバイステップの推論を生成し、エラーを自己修正することで人間の問題解決を模倣する。
論文 参考訳(メタデータ) (2025-08-04T20:33:58Z) - Deconfounded Reasoning for Multimodal Fake News Detection via Causal Intervention [16.607714608483164]
ソーシャルメディアの急速な成長は、複数のコンテンツ形式にまたがる偽ニュースの普及につながった。
従来の単モーダル検出手法は複雑なクロスモーダル操作に対処するには不十分である。
因果干渉に基づくマルチモーダルデコン検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-12T09:57:43Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Instrumental Variable Learning for Chest X-ray Classification [52.68170685918908]
本稿では,素因果関係を排除し,正確な因果表現を得るための解釈可能な機器変数(IV)学習フレームワークを提案する。
提案手法の性能はMIMIC-CXR,NIH ChestX-ray 14,CheXpertデータセットを用いて実証した。
論文 参考訳(メタデータ) (2023-05-20T03:12:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。