論文の概要: Auditing Frontier Vision-Language Models for Trustworthy Medical VQA: Grounding Failures, Format Collapse, and Domain Adaptation
- arxiv url: http://arxiv.org/abs/2604.27720v1
- Date: Thu, 30 Apr 2026 11:11:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.058128
- Title: Auditing Frontier Vision-Language Models for Trustworthy Medical VQA: Grounding Failures, Format Collapse, and Domain Adaptation
- Title(参考訳): 信頼できる医療VQAのためのフロンティアビジョン・ランゲージモデル:グラウンドニング障害、フォルマ崩壊、ドメイン適応
- Authors: Xupeng Chen, Binbin Shi, Chenqian Le, Qifu Yin, Lang Lin, Haowei Ni, Ran Gong, Panfeng Li,
- Abstract要約: 医療用VQAの5つの視覚言語モデル(VLM)を2つの信頼関連軸に沿って評価する。
モデルは解剖学的および病理学的ターゲットを不十分にローカライズする。
同じモデルをローカライズして回答するセルフグラウンドパイプラインは、VQAの精度を低下させる。
- 参考スコア(独自算出の注目度): 4.177028541321909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying vision-language models (VLMs) in clinical settings demands auditable behavior under realistic failure conditions, yet the failure landscape of frontier VLMs on specialized medical inputs is poorly characterized. We audit five recent frontier and grounding-aware VLMs (Gemini~2.5~Pro, GPT-5, o3, GLM-4.5V, Qwen~2.5~VL) on Medical VQA along two trust-relevant axes. Perception: all models localize anatomical and pathological targets poorly -- the best model reaches only 0.23 mean IoU and 19.1% Acc@0.5 -- and exhibit clinically dangerous laterality confusion. Pipeline integration: a self-grounding pipeline, where the same model localizes then answers, degrades VQA accuracy for every model -- driven by both inaccurate localization and format-compliance failures under the two-step prompt (parse failure rises to 70%--99% for Gemini and GPT-5 on VQA-RAD). Replacing predicted boxes with ground-truth annotations recovers and improves VQA accuracy, consistent with the failure residing in the perception module rather than in the decomposition itself. These observational findings identify grounding quality as a primary trustworthiness bottleneck in our SLAKE bounding-box setting. As a complementary fine-tuning follow-up, supervised fine-tuning of Qwen~2.5~VL on combined Med-VQA training data attains the highest reported SLAKE open-ended recall (85.5%) among comparable methods, suggesting that the VQA-level gap is tractable with domain adaptation; whether this also closes the perception/trustworthiness bottleneck is left to future work.
- Abstract(参考訳): 臨床環境における視覚言語モデル(VLM)の展開は, 現実的な故障条件下での聴覚行動が要求されるが, 専門医用入力におけるフロンティアVLMの故障状況は不十分である。
医療用VQAでは,2つの信頼関係軸に沿って,最新の5つのフロンティアとグラウンド・アウェアVLM(Gemini~2.5~Pro, GPT-5, o3, GLM-4.5V, Qwen~2.5~VL)を検査した。
知覚: どのモデルも解剖学的および病理学的対象のローカライズが不十分で、最良のモデルはIoUが0.23、Acc@0.5が19.1%であり、臨床的に危険な側方性混乱を示す。
パイプライン統合: 同じモデルをローカライズして、すべてのモデルのVQA精度を低下させるセルフグラウンドパイプライン – 2ステップのプロンプトの下で、不正確なローカライゼーションとフォーマット準拠の障害(VQA-RADでは、GeminiとGPT-5が70%--99%)によって駆動される。
グラウンドトルースアノテーションで予測ボックスをリプレースすることでVQAの精度が向上する。
これらの観察結果から, SLAKEバウンディングボックスの設定において, 接地品質が信頼性の第一のボトルネックであることが明らかとなった。
補完的な微調整のフォローアップとして、Med-VQAトレーニングデータによるQwen~2.5~VLの教師付き微調整は、同等の手法の中で最も報告されたSLAKEオープンエンドリコール(85.5%)を達成し、VQAレベルのギャップがドメイン適応と引き換え可能であることを示唆している。
関連論文リスト
- Predictive Entropy Links Calibration and Paraphrase Sensitivity in Medical Vision-Language Models [2.064612766965483]
我々は,MedGemma 4BITの分布MIMIC CXRと外分布PadChest chest X ray データセットの5つの不確実性定量化手法を示し,LLaVA RAD7Bのクロスアーキテクチャ検証を行った。
うまく校正された単一モデル法では、一方のフォワードパスからの予測エントロピーは、メドジェマのAUROC 0.711、LLaVARAD p 10 4の0.878、信頼できないと敏感な予測の両方を1つのエントロピーしきい値でフラグ付けることができる。
論文 参考訳(メタデータ) (2026-04-10T04:18:47Z) - Edge Reliability Gap in Vision-Language Models: Quantifying Failure Modes of Compressed VLMs Under Visual Corruption [0.0]
エッジデプロイメントのための大規模視覚言語モデルの迅速な圧縮は、未解決の問題を引き起こす: コンパクトモデルは、単に頻繁にではなく、異なるフェールするのだろうか?
本研究では, VQAv2 および COCO キャプションから 4,000 個のサンプルに対して, 7-ビリオンパラメータ定量 VLM (Qwen2.5-VL-7B, 4-bit NF4) と500 万パラメータFP16モデル (SmolVLM2-500M) を比較した。
平均トークン確率を用いて3カテゴリーの誤り分類法(対象盲点, セマンティックドリフト, 先行バイアス)を診断の枠組みとして適用し, 信頼度校正を期待誤差(ECE)を用いて測定する。
論文 参考訳(メタデータ) (2026-03-24T10:14:40Z) - Beyond Human Performance: A Vision-Language Multi-Agent Approach for Quality Control in Pharmaceutical Manufacturing [1.5362004217750165]
コロニー形成ユニット(CFU)検出は医薬品製造において重要である。
そこで我々は,ディープラーニング(DL)と視覚言語モデル(VLM)を組み合わせたマルチエージェントフレームワークを開発した。
最初のDLベースの自動化は、ワクチン製造現場で人間の検証を50%削減した。
論文 参考訳(メタデータ) (2026-02-24T04:48:05Z) - Toward More Reliable Artificial Intelligence: Reducing Hallucinations in Vision-Language Models [0.0]
視覚言語モデル(VLM)は、しばしば幻覚的コンテンツを生成するが、画像の内容に関する誤った主張である。
本稿では,不確実性誘導による視覚的再認識によってVLMの応答を反復的に改善することのできる,トレーニング不要な自己補正フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-08T13:58:46Z) - MedGRPO: Multi-Task Reinforcement Learning for Heterogeneous Medical Video Understanding [47.843626983298726]
textbfMedVidBenchは、ビデオ、セグメント、フレームレベルのタスクにまたがる8つの医療ソースにわたる531,850のビデオインストラクションペアの大規模なベンチマークである。
MedVidBenchの教師付き微調整は顕著な利益をもたらすが、標準強化学習はデータセット間の不均衡な報酬スケールのために失敗する。
textbfMedGRPOは、2つの重要な革新を伴うバランスの取れたマルチデータセットトレーニングのための新しいRLフレームワークである。
論文 参考訳(メタデータ) (2025-12-06T22:27:59Z) - When to Trust the Answer: Question-Aligned Semantic Nearest Neighbor Entropy for Safer Surgical VQA [11.804829233549704]
VQA(Visual Question Answering)を手術に導入するには,安全性と信頼性が不可欠である。
我々は、より安全な意思決定の鍵となる不確実性推定について検討する。
ブラックボックスの不確実性推定器であるQA-SNNEを導入する。
論文 参考訳(メタデータ) (2025-11-03T11:18:21Z) - Token-Level Inference-Time Alignment for Vision-Language Models [58.41370989069588]
VLM(Vision-Language Models)は、現代のマルチモーダルインテリジェンスの重要なバックボーンとなっている。
本稿では,基本VLMを凍結し,その分布を近似する報酬モデルをトレーニングする軽量フレームワークTITAを提案する。
推測中、暗黙の選好信号は報酬モデルと目標VLMの対数確率比として抽出され、密集した自己回帰フィードバックが得られる。
論文 参考訳(メタデータ) (2025-10-20T09:58:03Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detection [50.343419243749054]
異常検出は、医学診断や工業的欠陥検出などの分野において重要である。
CLIPの粗粒化画像テキストアライメントは、微粒化異常に対する局所化と検出性能を制限する。
クレーンは最先端のZSADを2%から28%に改善し、画像レベルとピクセルレベルの両方で、推論速度では競争力を維持している。
論文 参考訳(メタデータ) (2025-04-15T10:42:25Z) - Generalized Focal Loss V2: Learning Reliable Localization Quality
Estimation for Dense Object Detection [78.11775981796367]
GFLV2 (ResNet-101) は14.6 FPSで46.2 APを達成し、以前の最先端ATSSベースライン (43.6 AP at 14.6 FPS) をCOCO tt test-devで絶対2.6 APで上回った。
コードはhttps://github.com/implus/GFocalV2.comから入手できる。
論文 参考訳(メタデータ) (2020-11-25T17:06:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。