論文の概要: Evaluating Reasoning Faithfulness in Medical Vision-Language Models using Multimodal Perturbations
- arxiv url: http://arxiv.org/abs/2510.11196v1
- Date: Mon, 13 Oct 2025 09:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.297602
- Title: Evaluating Reasoning Faithfulness in Medical Vision-Language Models using Multimodal Perturbations
- Title(参考訳): マルチモーダル摂動を用いた医用視覚言語モデルにおける推論の忠実度の評価
- Authors: Johannes Moll, Markus Graf, Tristan Lemke, Nicolas Lenhart, Daniel Truhn, Jean-Benoit Delbrouck, Jiazhen Pan, Daniel Rueckert, Lisa C. Adams, Keno K. Bressem,
- Abstract要約: 視覚言語モデル(VLM)は、しばしばチェーン・オブ・シント(CoT)の説明を生み出す。
胸部X線視覚質問応答(VQA)の臨床的基盤として,制御されたテキストと画像修正を用いてCoT忠実度を探索するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.488236277427358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) often produce chain-of-thought (CoT) explanations that sound plausible yet fail to reflect the underlying decision process, undermining trust in high-stakes clinical use. Existing evaluations rarely catch this misalignment, prioritizing answer accuracy or adherence to formats. We present a clinically grounded framework for chest X-ray visual question answering (VQA) that probes CoT faithfulness via controlled text and image modifications across three axes: clinical fidelity, causal attribution, and confidence calibration. In a reader study (n=4), evaluator-radiologist correlations fall within the observed inter-radiologist range for all axes, with strong alignment for attribution (Kendall's $\tau_b=0.670$), moderate alignment for fidelity ($\tau_b=0.387$), and weak alignment for confidence tone ($\tau_b=0.091$), which we report with caution. Benchmarking six VLMs shows that answer accuracy and explanation quality are decoupled, acknowledging injected cues does not ensure grounding, and text cues shift explanations more than visual cues. While some open-source models match final answer accuracy, proprietary models score higher on attribution (25.0% vs. 1.4%) and often on fidelity (36.1% vs. 31.7%), highlighting deployment risks and the need to evaluate beyond final answer accuracy.
- Abstract(参考訳): 視覚言語モデル(VLM)は、しばしばチェーン・オブ・シント(CoT)の説明を生み出すが、根底にある決定過程を反映せず、高い臨床的使用に対する信頼を損なう。
既存の評価は、答えの正確さや形式への固執を優先して、このミスアライメントをつかむことは滅多にない。
胸部X線視覚質問応答 (VQA) の臨床的基盤として, 臨床像の忠実度, 因果属性, 信頼性キャリブレーションの3つの軸にまたがって, CoT の忠実度を制御したテキストと画像修正を用いて調査するフレームワークを提案する。
調査対象者 (n=4) では, 放射線学と放射線学の相関関係は, 全軸に対して観測された放射線学的範囲内に該当し, 属性に対する強いアライメント(ケンドールの$\tau_b=0.670$), 忠実性の適度なアライメント($\tau_b=0.387$), 信頼度に対する弱いアライメント($\tau_b=0.091$)が報告された。
6つのVLMをベンチマークすると、解答精度と説明品質は分離され、注入されたキューはグラウンド化を保証せず、テキストキューは視覚的なキューよりも説明をシフトしている。
いくつかのオープンソースモデルは最終解答精度と一致するが、プロプライエタリモデルは帰属率(25.0%対1.4%)と忠実度(36.1%対31.7%)でスコアが上がり、配置リスクと最終解答精度以上の評価の必要性を強調している。
関連論文リスト
- CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - Evaluating Large Language Models for Evidence-Based Clinical Question Answering [4.101088122511548]
大規模言語モデル (LLMs) は, 医学的, 臨床的応用において著しく進歩している。
Cochraneの体系的レビューと臨床ガイドラインから得られたベンチマークをキュレートする。
我々はソースと臨床領域間で一貫したパフォーマンスパターンを観察する。
論文 参考訳(メタデータ) (2025-09-13T15:03:34Z) - Decoupling Clinical and Class-Agnostic Features for Reliable Few-Shot Adaptation under Shift [12.373281238541296]
医療ビジョン言語モデル(VLM)は、臨床診断支援を約束するが、分布シフトによる信頼性は、安全なデプロイメントにとって大きな関心事である。
そこで我々はDRiFtを提案する。DRiFtは機能分離フレームワークで、臨床的に関連する信号をタスク非依存のノイズから明確に分離する。
提案手法は,従来のプロンプトベースの手法に比べて,Top-1精度+11.4%,Macro-F1+3.3%向上する。
論文 参考訳(メタデータ) (2025-09-11T12:26:57Z) - mFARM: Towards Multi-Faceted Fairness Assessment based on HARMs in Clinical Decision Support [10.90604216960609]
大規模言語モデル(LLM)の高度な医療環境への展開は、AIアライメントの重要な課題である。
既存の公正性評価手法は、医療被害の多次元的な性質を無視する単純な指標を使用するため、これらの文脈では不十分である。
本稿では,hARMs(mFARM$)に基づく多面的公正度評価(マルチメトリック・フェアネス・アセスメント)を提案する。
提案した$mFARM$のメトリクスは、さまざまな設定下でより効果的に微妙なバイアスをキャプチャします。
論文 参考訳(メタデータ) (2025-09-02T06:47:57Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - The Confidence Paradox: Can LLM Know When It's Wrong [5.545086863155316]
倫理的に整合したDocVQAのための自己監督型正直校正フレームワークであるHonestVQAを紹介する。
本手法は,知識ギャップを同定するための不確実性を定量化し,重み付き損失関数を用いてモデル信頼度を実際の正しさと整合させ,対照的な学習を通じて倫理的応答行動を実施する。
実証的に、HoestVQAは、SpDocVQA、InfographicsVQA、SROIEデータセットでDocVQAの精度を最大4.3%、F1を4.3%向上させる。
論文 参考訳(メタデータ) (2025-06-30T02:06:54Z) - Escaping the SpuriVerse: Can Large Vision-Language Models Generalize Beyond Seen Spurious Correlations? [37.703287009808896]
微調整は、非重要特徴とターゲットラベルの間に急激な相関を引き起こす可能性がある。
実世界の視覚探索探索(VQA)ベンチマークにおいて,GPT-4oエラーを抽出してベンチマークを作成する。
SpuriVerse上で15のオープンソースLVLMを評価し、最先端のクローズドソースモデルでもかなり苦労していることを発見した。
論文 参考訳(メタデータ) (2025-06-23T06:11:43Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - Proximity-Informed Calibration for Deep Neural Networks [49.330703634912915]
ProCalは、近接性に基づいてサンプル信頼度を調整する理論的保証を持つプラグアンドプレイアルゴリズムである。
ProCalは、近接バイアスに対処し、バランスの取れた、長い、分布シフトの設定の校正を改善するのに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-07T16:40:51Z) - VisFIS: Visual Feature Importance Supervision with
Right-for-the-Right-Reason Objectives [84.48039784446166]
モデルFI監督は、VQAモデルの精度と、Right-to-the-Right-Reasonメトリクスの性能を有意義に向上させることができることを示す。
我々の最高のパフォーマンス手法であるVisual Feature Importance Supervision (VisFIS)は、ベンチマークVQAデータセットで強いベースラインを上回ります。
説明が妥当で忠実な場合には予測がより正確になる。
論文 参考訳(メタデータ) (2022-06-22T17:02:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。