論文の概要: MedVIGIL: Evaluating Trustworthy Medical VLMs Under Broken Visual Evidence
- arxiv url: http://arxiv.org/abs/2605.07919v1
- Date: Fri, 08 May 2026 15:55:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.180054
- Title: MedVIGIL: Evaluating Trustworthy Medical VLMs Under Broken Visual Evidence
- Title(参考訳): MedVIGIL: 信頼できる医療用VLMの評価
- Authors: Hanqi Jiang, Junhao Chen, Yi Pan, Lifeng Chen, Weihang You, Haozhen Gong, Ruiyu Yan, Jinglei Lv, Lin Zhao, Hui Ren, Quanzheng Li, Tianming Liu, Xiang Li,
- Abstract要約: medvigilは4つの公開医療用VQAソースから作成された300ケースの評価スイートである。
あらゆるゴールド回答、拒絶オプション、候補答えセット、パラフレーズ、虚偽の前提トラップ、ROIボックス、臨床リスクレベルが臨床著者によって作成される。
メドビニル複合スコア(MCS)に要約した7つの正当性条件監査指標を報告する。
独立した放射線学者は、静電気障害率5.8%でMCS 83.3をスコアし、14.1ポイントの複合ヘッドルームを最強の監査モデルの上に残した。
- 参考スコア(独自算出の注目度): 24.517280048376758
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Medical vision--language models (VLMs) are usually evaluated on intact image--question pairs, but trustworthy clinical use requires a stronger property: a model must recognise when the evidential basis for an answer has failed. We study this through silent failures under perturbed evidence, where a vision-required medical question is paired with a false premise, wording perturbation, knowledge-only rewrite, or ROI-corrupted image, yet the model returns a fluent non-refusal answer. We introduce medvigil, a 300-case evaluation suite drawn from four public medical VQA sources, supervised end to end by four board-certified radiologists: every gold answer, refusal option, candidate-answer set, paraphrase, false-premise trap, ROI box, and clinical risk tier is clinician-authored. Two attending radiologists annotate every case in parallel, a senior radiologist consolidates the released manifest, and a separate fourth radiologist independent of construction answers every probe to provide the human reference baseline. The release contains 2{,}556 MCQ probes, 240 counterfactual triplets, physician-adjudicated risk-tier and answerability flags, ROI boxes, and a paired open-ended variant. We report seven correctness-conditioned audit metrics that summarise into the medvigil Composite Score (MCS), and audit 16 vision-capable models plus two text-only baselines. The independent radiologist scores MCS 83.3 at silent-failure rate 5.8%, leaving a 14.1-point composite headroom above the strongest audited model (Claude Opus 4.7 at 69.2). The benchmark and evaluation harness are publicly released.
- Abstract(参考訳): 医用視覚言語モデル(VLM)は、通常、画像検索ペアで評価されるが、信頼できる臨床使用には、より強い特性が必要である。
そこでは,視覚に要求される医学的問題と誤った前提,言葉の摂動,知識のみの書き直し,ROIの破損した画像とを組み合わせ,そのモデルが非拒否的回答を返す。
我々は,4つの公衆医療用VQAソースから作成した300ケース評価スイートであるmedvigilについて,すべてのゴールド回答,拒絶オプション,候補回答セット,パラフレーズ,偽装トラップ,ROIボックス,臨床リスクレベルが臨床著者によって管理されている。
2人の放射線科医が全ての事例に平行して注釈を付け、上級放射線科医が解放されたマニフェストを集約し、別の4番目の放射線科医が調査の全ての回答から独立して人間の基準基準線を提供する。
リリースには、2{,}556のMCQプローブ、240の対物三つ子、医師が指定したリスク層と応答性フラグ、ROIボックス、ペア化されたオープンエンド版が含まれている。
メドヴィジル複合スコア(MCS)に要約した7つの正当性条件監査指標と16の視覚能力モデルと2つのテキストのみのベースラインについて報告する。
独立した放射線学者は、MCS 83.3をサイレント・フェイルレート5.8%でスコアし、14.1ポイントの複合ヘッドルームを最強の監査モデル(Claude Opus 4.7 at 69.2)の上に残した。
ベンチマークと評価ハーネスが公開されている。
関連論文リスト
- Same Verdict, Different Reasons: LLM-as-a-Judge and Clinician Disagreement on Medical Chatbot Completeness [49.2667937337333]
不完全な患者の医療反応を検出するために,この仮定をストレステストする。
我々は,2つの臨床診断データセットにわたる3つの粒度(General-Likert,Analytical-Rubric,Dynamic-Checklist)と3つのバックボーンモデルを評価する。
論文 参考訳(メタデータ) (2026-03-26T19:01:55Z) - ThReadMed-QA: A Multi-Turn Medical Dialogue Benchmark from Real Patient Questions [5.63130104359934]
ThReadMed-QAは、r/AskDocsから抽出された2,437人の患者を検索する会話スレッドのベンチマークである。
我々は,238の会話の階層化テスト分割に基づいて,最先端のLLMを5つ評価した。
最も強いモデルであるGPT-5でさえ41.2%の完全正解しか得られない。
論文 参考訳(メタデータ) (2026-03-11T20:17:57Z) - VinDr-CXR-VQA: A Visual Question Answering Dataset for Explainable Chest X-Ray Analysis with Multi-Task Learning [3.4998703934432682]
VinDr-CXR-VQA(VinDr-CXR-VQA)は、医用視覚質問応答(Med-VQA)のための大規模胸部X線データセットである。
データセットには4,394枚の画像からなる17,597枚の質問応答対が含まれており、それぞれに放射線技師が検証した境界ボックスと臨床理由説明が注釈付けされている。
論文 参考訳(メタデータ) (2025-11-01T11:17:44Z) - Evaluating Reasoning Faithfulness in Medical Vision-Language Models using Multimodal Perturbations [19.488236277427358]
視覚言語モデル(VLM)は、しばしばチェーン・オブ・シント(CoT)の説明を生み出す。
胸部X線視覚質問応答(VQA)の臨床的基盤として,制御されたテキストと画像修正を用いてCoT忠実度を探索するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T09:28:22Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models [92.04812189642418]
我々はCARESを紹介し,医療領域全体での医療LVLMの信頼性を評価することを目的とする。
我々は,Med-LVLMの信頼性を,信頼性,公正性,安全性,プライバシ,堅牢性,5次元にわたって評価する。
論文 参考訳(メタデータ) (2024-06-10T04:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。