論文の概要: Overconfidence and Calibration in Medical VQA: Empirical Findings and Hallucination-Aware Mitigation
- arxiv url: http://arxiv.org/abs/2604.02543v1
- Date: Thu, 02 Apr 2026 21:52:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.219786
- Title: Overconfidence and Calibration in Medical VQA: Empirical Findings and Hallucination-Aware Mitigation
- Title(参考訳): 医療用VQAにおける過信と校正 : 経験的発見と幻覚の緩和
- Authors: Ji Young Byun, Young-Jin Park, Jean-Philippe Corbeil, Asma Ben Abacha,
- Abstract要約: ビジョン言語モデル(VLM)の過信は、モデルファミリにわたって持続し、スケーリングやプロンプトによって解決されない。
プラットスケーリングのようなポストホックキャリブレーションアプローチは、キャリブレーションエラーを低減し、プロンプトベースの戦略を一貫して上回る。
幻覚を意識した校正 (HAC) では、視覚的な幻覚検出信号が補完的な入力として組み込まれ、信頼度の推定を洗練させる。
- 参考スコア(独自算出の注目度): 4.247706336083815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As vision-language models (VLMs) are increasingly deployed in clinical decision support, more than accuracy is required: knowing when to trust their predictions is equally critical. Yet, a comprehensive and systematic investigation into the overconfidence of these models remains notably scarce in the medical domain. We address this gap through a comprehensive empirical study of confidence calibration in VLMs, spanning three model families (Qwen3-VL, InternVL3, LLaVA-NeXT), three model scales (2B--38B), and multiple confidence estimation prompting strategies, across three medical visual question answering (VQA) benchmarks. Our study yields three key findings: First, overconfidence persists across model families and is not resolved by scaling or prompting, such as chain-of-thought and verbalized confidence variants. Second, simple post-hoc calibration approaches, such as Platt scaling, reduce calibration error and consistently outperform the prompt-based strategy. Third, due to their (strict) monotonicity, these post-hoc calibration methods are inherently limited in improving the discriminative quality of predictions, leaving AUROC at the same level. Motivated by these findings, we investigate hallucination-aware calibration (HAC), which incorporates vision-grounded hallucination detection signals as complementary inputs to refine confidence estimates. We find that leveraging these hallucination signals improves both calibration and AUROC, with the largest gains on open-ended questions. Overall, our findings suggest post-hoc calibration as standard practice for medical VLM deployment over raw confidence estimates, and highlight the practical usefulness of hallucination signals to enable more reliable use of VLMs in medical VQA.
- Abstract(参考訳): 視覚言語モデル(VLM)は、臨床的な意思決定支援にますます導入されているため、正確性以上のものが必要であり、予測をいつ信頼すべきかを知ることは同様に重要である。
しかし、これらのモデルの過信に関する包括的かつ体系的な調査は、医療領域において顕著に乏しいままである。
3つのモデルファミリー(Qwen3-VL, InternVL3, LLaVA-NeXT)、3つのモデルスケール(2B-38B)、3つの医用視覚的質問応答(VQA)ベンチマークにまたがる、VLMの信頼性校正に関する総合的研究を通じて、このギャップに対処する。
第一に、過信はモデルファミリーにまたがって持続し、チェーン・オブ・ソートや言語化された信頼の変種など、スケールやプロンプトによって解決されない。
第二に、プラッツスケーリングのような単純なポストホックキャリブレーションアプローチは、キャリブレーションエラーを低減し、プロンプトベースの戦略を一貫して上回る。
第三に、それらの(限定的な)単調性のため、これらのポストホックキャリブレーション法は本質的に、AUROCを同じレベルに置いて、予測の差別的品質を改善することに制限されている。
これらの結果から,視覚下幻覚検出信号を補足入力として組み込んだ幻覚認識校正法(HAC)について検討した。
これらの幻覚信号を活用することで、校正とAUROCの両方が向上し、オープンエンドの質問に対して最大の利益が得られます。
以上の結果から, 医療用VLMの信頼性評価よりも, 医療用VLMの標準的な運用方法として, より信頼性の高いVLMを医療用VQAに活用するために, 幻覚信号の実用的有用性を強調した。
関連論文リスト
- Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification [60.18369393468405]
既存の検証器は通常、ドメイン知識の欠如と限られた校正のために性能が劣る。
GLEANは専門家によって計算されたプロトコルをトラジェクトリインフォームされ、よく校正された正当性信号にコンパイルする。
我々は,MIMIC-IVデータセットから得られた3つの疾患の薬物的臨床診断でGLEANを実証的に検証した。
論文 参考訳(メタデータ) (2026-03-03T09:36:43Z) - On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - Towards Reliable Medical LLMs: Benchmarking and Enhancing Confidence Estimation of Large Language Models in Medical Consultation [97.36081721024728]
本稿では,現実的な医療相談におけるマルチターンインタラクションの信頼性を評価するための最初のベンチマークを提案する。
本ベンチマークでは,3種類の医療データを統合し,診断を行う。
本稿では,エビデンスを基盤とした言語自己評価フレームワークであるMedConfを紹介する。
論文 参考訳(メタデータ) (2026-01-22T04:51:39Z) - Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models [48.95516224614331]
MedGaze-Benchは、臨床医の視線を認知的カーソルとして活用し、手術、緊急シミュレーション、診断解釈における意図的理解を評価する最初のベンチマークである。
本ベンチマークでは,解剖学的構造の視覚的均一性,臨床における時間・因果依存性の厳格化,安全プロトコルへの暗黙の順守という3つの基本的な課題に対処する。
論文 参考訳(メタデータ) (2026-01-11T02:20:40Z) - Refine and Align: Confidence Calibration through Multi-Agent Interaction in VQA [8.879640496857661]
本稿では,視覚質問応答のための議論ベースのマルチエージェントフレームワークAlignVQAを紹介する。
よりキャリブレーションされた特殊エージェントは、より整合性のある信頼性を生み出す。
また、特殊エージェントを微調整するために、アライメントカルと呼ばれる、識別可能なキャリブレーション対応損失関数も導入した。
論文 参考訳(メタデータ) (2025-11-14T11:08:21Z) - A Multi-faceted Analysis of Cognitive Abilities: Evaluating Prompt Methods with Large Language Models on the CONSORT Checklist [1.1731001328350983]
本研究では,専門家検証データセットを用いた行動・メタ認知分析手法を適用した。
メトリクスを用いた認知適応と校正誤差の分析:予測誤差(ECE)とベースライン正規化相対誤差(RCE)
以上の結果より, 両モデルとも, 特に臨床ロールプレイング条件下では, 誤診や過信感が顕著であった。
論文 参考訳(メタデータ) (2025-10-22T00:15:02Z) - Calibration-Aware Prompt Learning for Medical Vision-Language Models [44.97741487992985]
ミススカラー予測は、過度に自信過剰なエラーを引き起こし、臨床信頼と意思決定の信頼性を損なう。
本稿では,Med-VLM を即時チューニングする最初のフレームワークである CalibPrompt を紹介する。
CalibPromptは、クリーンな精度に大きな影響を及ぼすことなく、キャリブレーションを継続的に改善する。
論文 参考訳(メタデータ) (2025-09-18T17:59:58Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z) - Enhancing Healthcare LLM Trust with Atypical Presentations Recalibration [20.049443396032423]
ブラックボックスの大規模言語モデル(LLM)は、様々な環境に徐々に展開されている。
LLMは、しばしば過剰な自信を示し、潜在的なリスクや誤った判断につながる。
本稿では,非定型的なプレゼンテーションを利用してモデルの信頼度を推定する新しい手法であるtextitAtypical presentations Recalibrationを提案する。
論文 参考訳(メタデータ) (2024-09-05T03:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。