論文の概要: Verification Mirage: Mapping the Reliability Boundary of Self-Verification in Medical VQA
- arxiv url: http://arxiv.org/abs/2605.10850v1
- Date: Mon, 11 May 2026 17:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:51.016721
- Title: Verification Mirage: Mapping the Reliability Boundary of Self-Verification in Medical VQA
- Title(参考訳): 検証ミラー:医療用VQAにおける自己検証の信頼性境界のマッピング
- Authors: Ruinan Jin, Beidi Zhao, Myeongkyun Kang, Qiong Zhang, Xiaoxiao Li,
- Abstract要約: 自己検証は、医療的な視覚的質問応答のデフォルトの安全レイヤとして、ますます使われている。
本稿では,医療用VLM自己検証の信頼性境界をマッピングする診断フレームワークであるMETHOD NAMEを紹介する。
- 参考スコア(独自算出の注目度): 36.64345996280624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-verification, re-invoking the same vision language model (VLM) in a fresh context to check its own generated answer, is increasingly used as a default safety layer for medical visual question answering (VQA). We argue that this practice is fundamentally unreliable. We introduce [METHOD NAME], a diagnostic framework for mapping the reliability boundary of medical VLM self-verification by decomposing verifier behavior into discrimination capability and agreement bias. Because the verifier and answer generator are capacity-coupled, the verifier can overly agree with the generator, creating a verification mirage: a regime with both high verifier error and high agreement bias, driven by false acceptance of incorrect answers. Evaluating six open-weight VLMs across five medical VQA datasets and seven medical tasks, we find that this boundary is strongly task-conditioned. Knowledge-intensive clinical tasks fall deepest into the mirage, simpler tasks are more resistant, and perceptual tasks lie in between. Verification also fails to provide an independent safety signal: logistic mixed-effects analysis shows that verifier error and agreement bias become more likely when the generator is wrong, while saliency analyses show that verifiers under-attend to image evidence relative to generators, a phenomenon we call the lazy verifier. Cross-verification reduces but does not eliminate the mirage. Moreover, when verification is reused in multi-turn actor-verifier loops, most initially wrong answers become locked in by false verification. Since our experiments use clean benchmarks, the observed reliability boundary likely underestimates failures in real clinical deployment.
- Abstract(参考訳): 自己検証(Self-verification)は、医療視覚質問応答(VQA)のデフォルトセーフティレイヤとして、新たなコンテキストで同じ視覚言語モデル(VLM)を再起動する。
私たちはこの慣行は基本的に信頼できないと論じる。
検証動作を識別能力と合意バイアスに分解することで,医療用VLM自己検証の信頼性境界をマッピングする診断フレームワークであるMETHOD NAMEを紹介した。
検証器と回答生成器は容量結合であるため、検証器は生成器と過度に一致し、検証ミラーを生成する:高い検証器誤差と高い合意バイアスを持つ状態が、誤った回答の誤った受け入れによって引き起こされる。
5つの医療VQAデータセットと7つの医療タスクにまたがる6つのオープンウェイトVLMを評価することにより、この境界がタスク条件に強く依存していることが分かる。
知識集約的な臨床タスクは、ミラージュに最も深く浸透し、より単純なタスクはより耐性を持ち、知覚的なタスクは中間にある。
ロジスティック・ミックス・エフェクト分析(英語版)は、検証エラーと合意バイアスが、ジェネレータが間違っていればより起こりやすいことを示し、サリエンシ分析(英語版)は、検証者がジェネレータに対して画像証拠に従わないことを示し、この現象を遅延検証と呼ぶ。
相互検証は減少するが、ミラージュを排除しない。
さらに、マルチターンアクター検証ループで検証が再利用されると、ほとんどの答えは誤検証によってロックインされる。
我々の実験ではクリーンなベンチマークを用いており、観察された信頼性境界は実際の臨床展開における失敗を過小評価する可能性が高い。
関連論文リスト
- AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems [6.586256098975453]
Agent-Integrated Verification and Validation (AIVV)は,大規模言語モデル(LLM)を検討外ループとしてデプロイするハイブリッドフレームワークである。
評議会代理人は、あいまいさと真の失敗を意味的に検証することで協調的な検証を行う。
無人水中車両(UUV)の時系列シミュレータの実験では、AIVがHITL V&Vプロセスのデジタル化に成功した。
論文 参考訳(メタデータ) (2026-04-02T19:25:18Z) - MedObvious: Exposing the Medical Moravec's Paradox in VLMs via Clinical Triage [20.835664121303534]
ビジョン言語モデル(VLM)は、医療報告生成や視覚的質問応答といったタスクにますます使われています。
臨床実践では、解釈は診断前の衛生検査から始まる。
既存のベンチマークでは、このステップが解決されたと仮定しており、致命的な障害モードを見逃している。
我々は1,880タスクのベンチマークであるMedObviousを導入し、入力検証をセットレベルの一貫性機能として分離する。
論文 参考訳(メタデータ) (2026-03-24T17:59:54Z) - Grounding the Score: Explicit Visual Premise Verification for Reliable Vision-Language Process Reward Models [8.630726904040781]
EVPV(Explicit Visual Premise Verification)は,ステップが依存する視覚的前提の信頼性を段階的に評価する,軽量な検証インターフェースである。
EVPVはステップレベルの検証を改善し、強いベースラインよりも常にBest-of-Nの精度を向上する。
論文 参考訳(メタデータ) (2026-03-17T08:40:26Z) - Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification [60.18369393468405]
既存の検証器は通常、ドメイン知識の欠如と限られた校正のために性能が劣る。
GLEANは専門家によって計算されたプロトコルをトラジェクトリインフォームされ、よく校正された正当性信号にコンパイルする。
我々は,MIMIC-IVデータセットから得られた3つの疾患の薬物的臨床診断でGLEANを実証的に検証した。
論文 参考訳(メタデータ) (2026-03-03T09:36:43Z) - V-Loop: Visual Logical Loop Verification for Hallucination Detection in Medical Visual Question Answering [8.994256499686863]
医用視覚質問応答における幻覚検出のためのトレーニングフリーでプラグアンドプレイのフレームワークを提案する。
V-ループは、事実の正しさを検証するために視覚的に接地された論理ループを形成する。
既存のイントロスペクティブ手法を一貫して上回り、高い効率を保ち、組み合わせた場合の不確実性ベースのアプローチをさらに強化する。
論文 参考訳(メタデータ) (2026-01-26T07:46:41Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - SURE-Med: Systematic Uncertainty Reduction for Enhanced Reliability in Medical Report Generation [2.2185034594788164]
視覚, 分布, 文脈の3つの重要な次元における不確実性を体系的に低減する統合フレームワークSURE-Medを提案する。
視覚的不確実性を軽減するため、Frontal-Aware View Resamplingモジュールはビューアノテーションエラーを修正し、補足ビューから情報的特徴を適応的に選択する。
ラベル分布の不確実性に対処するために,批判的診断文のモデリングを促進させるToken Sensitive Learningの目標を提案する。
文脈不確実性を低減するため、文脈証拠フィルタは、現在の画像と整合する事前情報を検証し、選択的に組み込んで、幻覚を効果的に抑制する。
論文 参考訳(メタデータ) (2025-08-03T09:52:30Z) - Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation [108.13261761812517]
本稿では,RAG出力における幻覚検出の新しい手法であるFRANQ(Fithfulness-based Retrieval Augmented Uncertainty Quantification)を紹介する。
本稿では,事実性と忠実性の両方に注釈を付したQAデータセットを提案する。
論文 参考訳(メタデータ) (2025-05-27T11:56:59Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。