論文の概要: Rethinking Visual Attribution for Chest X-ray Reasoning in Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2605.20158v1
- Date: Tue, 19 May 2026 17:46:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.565316
- Title: Rethinking Visual Attribution for Chest X-ray Reasoning in Large Vision Language Models
- Title(参考訳): 大規模視覚言語モデルにおける胸部X線推論のための視覚属性の再考
- Authors: Guangzhi Xiong, Qiao Jin, Sanchit Sinha, Zhiyong Lu, Aidong Zhang,
- Abstract要約: 大規模視覚言語モデル(LVLM)は医学的応用において有望であるが、視覚的証拠に忠実に応答できないことは深刻な懸念を引き起こす。
そこで本研究では,CXR-VQAサンプルのみを保持する因果評価フレームワークを開発した。
MedFocusは, 臨床的に有意な解剖学的領域を非平衡の最適輸送により局所化する概念に基づく属性法である。
- 参考スコア(独自算出の注目度): 47.16270570101431
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision Language Models (LVLMs) show promise in medical applications, but their inability to faithfully ground responses in visual evidence raises serious concerns about clinical trustworthiness. While visual attribution methods are widely used to explain LVLM predictions, whether these explanations actually reflect the visual evidence underlying the model's decision is largely unverified, since ground-truth annotations for internal model reasoning are typically unavailable. We address this question for chest X-ray (CXR) reasoning by developing a causal evaluation framework that retains only CXR-VQA samples for which the expert-annotated region is verified, via counterfactual editing, to be causally responsible for the model's prediction. Using this framework across 11 attribution methods, six open-source LVLMs, and two output modes (direct answer and step-by-step reasoning), we find that existing attribution methods often fail to identify the evidence used by LVLMs. To address this failure, we propose MedFocus, a concept-based attribution method that localizes clinically meaningful anatomical regions via unbalanced optimal transport and measures their causal effect on model outputs through targeted interventions. MedFocus produces spatial, concept-level, and token-level attributions and substantially outperforms prior methods, taking a step toward more trustworthy attribution for medical LVLMs. Our data and code are available at https://github.com/gzxiong/medfocus/.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、医療応用において有望であるが、視覚的証拠に忠実に応答できないことは、臨床の信頼性に対する深刻な懸念を引き起こす。
視覚的帰属法はLVLMの予測を説明するために広く用いられているが、これらの説明が実際にモデル決定の根底にある視覚的証拠を反映しているかどうかはほとんど検証されていない。
本稿では,CXR-VQAサンプルのみを保持する因果評価フレームワークを開発することにより,胸部X線推論(CXR)の問題に対処する。
このフレームワークは,11の帰属法,6つのオープンソースLVLM,および2つの出力モード(直接応答法とステップバイステップ推論法)にまたがって,既存の帰属法ではLVLMが用いた証拠の特定に失敗することが多い。
この障害に対処するために、MedFocusという概念に基づく属性法を提案する。これは、不均衡な最適輸送によって臨床的に有意な解剖領域を局在化し、標的とした介入を通してモデル出力に対する因果効果を測定する。
MedFocusは、空間的、概念的、トークンレベルの属性を生成し、従来の手法を大幅に上回り、医療用LVLMの信頼性の高い属性への一歩を踏み出した。
私たちのデータとコードはhttps://github.com/gzxiong/medfocus/で公開されています。
関連論文リスト
- Reasoning Visual Language Model for Chest X-Ray Analysis [30.318629424154206]
胸部X線解釈にチェーン・オブ・シント(CoT)推論をもたらすフレームワークを提案する。
推論ファーストのトレーニングパラダイムにインスパイアされた私たちのアプローチは、専門家が結論を下すだけでなく、どのように判断するかを学ぶように設計されています。
我々は,胸部X線撮影における信頼に値する,説明可能なAIに向けたコミュニティの進展を支援するために,コードとモデルNV-Reason-CXR-3Bをリリースする。
論文 参考訳(メタデータ) (2025-10-28T00:48:00Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - XBench: A Comprehensive Benchmark for Visual-Language Explanations in Chest Radiography [6.447908430647854]
胸部X線におけるクロスモーダル解釈性を評価するための最初の体系的ベンチマークを示す。
我々は,クロスアテンションと類似性に基づくローカライズマップを用いた視覚的説明を生成する。
複数の病理組織を横断する放射線診断領域とのアライメントを定量的に評価した。
論文 参考訳(メタデータ) (2025-10-22T13:52:19Z) - Proactive Reasoning-with-Retrieval Framework for Medical Multimodal Large Language Models [15.530083855947987]
我々は,Med-RwR を用いた最初のマルチモーダル医療推論フレームワークを提案する。
Med-RwRは、推論中に観察された症状やドメイン固有の医療概念を問い合わせることで、外部知識を積極的に回収する。
様々な公開医療ベンチマークの評価は、Med-RwRのベースラインモデルに対する大幅な改善を示している。
論文 参考訳(メタデータ) (2025-10-21T05:18:18Z) - GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning [60.03671205298294]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現在の方法はまだ、答えの信頼性の制限と解釈性の低下に悩まされている。
この研究はまず、回答を生成するプロセスが中間的推論ステップのシーケンスに先行する領域対応マルチモーダル・チェーン・オブ・ソートデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning [29.84956540178252]
推論は、医用画像解析の進歩における重要なフロンティアである。
我々は、自然言語推論を明示的に生成する医療用VLMであるMedVLM-R1を紹介する。
MedVLM-R1の精度は、MRI、CT、X線ベンチマークで55.11%から78.22%に向上している。
論文 参考訳(メタデータ) (2025-02-26T23:57:34Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。