論文の概要: Are Large Vision Language Models Truly Grounded in Medical Images? Evidence from Italian Clinical Visual Question Answering
- arxiv url: http://arxiv.org/abs/2511.19220v1
- Date: Mon, 24 Nov 2025 15:26:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.277734
- Title: Are Large Vision Language Models Truly Grounded in Medical Images? Evidence from Italian Clinical Visual Question Answering
- Title(参考訳): 医用画像の中に大きな視覚言語モデルが存在するか? : イタリアにおける臨床視力検査からの証拠
- Authors: Federico Felizzi, Olivia Riccomi, Michele Ferramola, Francesco Andrea Causio, Manuel Del Medico, Vittorio De Vita, Lorenzo De Mori, Alessandra Piscitelli Pietro Eric Risuleo, Bianca Destro Castaniti, Antonio Cristiano Alessia Longo, Luigi De Angelis, Mariapia Vassalli, Marcello Di Pumpo,
- Abstract要約: イタリアの医学的疑問に答える際に,大きな視覚言語モデル (VLM) が真の視覚的根拠を示すかどうかを検討する。
我々は4つの最先端モデル(Claude Sonnet 4.5, GPT-4o, GPT-5-mini, Gemini 2.0 flash exp)をテストする。
- 参考スコア(独自算出の注目度): 28.404018926483985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision language models (VLMs) have achieved impressive performance on medical visual question answering benchmarks, yet their reliance on visual information remains unclear. We investigate whether frontier VLMs demonstrate genuine visual grounding when answering Italian medical questions by testing four state-of-the-art models: Claude Sonnet 4.5, GPT-4o, GPT-5-mini, and Gemini 2.0 flash exp. Using 60 questions from the EuropeMedQA Italian dataset that explicitly require image interpretation, we substitute correct medical images with blank placeholders to test whether models truly integrate visual and textual information. Our results reveal striking variability in visual dependency: GPT-4o shows the strongest visual grounding with a 27.9pp accuracy drop (83.2% [74.6%, 91.7%] to 55.3% [44.1%, 66.6%]), while GPT-5-mini, Gemini, and Claude maintain high accuracy with modest drops of 8.5pp, 2.4pp, and 5.6pp respectively. Analysis of model-generated reasoning reveals confident explanations for fabricated visual interpretations across all models, suggesting varying degrees of reliance on textual shortcuts versus genuine visual analysis. These findings highlight critical differences in model robustness and the need for rigorous evaluation before clinical deployment.
- Abstract(参考訳): 大規模視覚言語モデル (VLM) は, 医用視覚質問応答ベンチマークにおいて有意な性能を達成しているが, 視覚情報への依存度は未定である。
イタリアの医学的疑問に答える際,フロンティアVLMが真の視覚的根拠を示すかどうかをクロード・ソネット4.5, GPT-4o, GPT-5-mini, Gemini 2.0フラッシュexpの4モデルを用いて検討した。
画像の解釈を明示的に要求するEuropeMedQAイタリアのデータセットからの60の質問を用いて、適切な医療画像を空白のプレースホルダーに置き換えて、モデルが本当に視覚情報とテキスト情報を統合するかどうかをテストする。
GPT-4oは27.9ppの精度低下(83.2% [74.6%, 91.7%]から55.3% [44.1%, 66.6%)で、GPT-5-mini, Gemini, Claudeはそれぞれ8.5pp, 2.4pp, 5.6ppと高い精度を維持している。
モデル生成推論の解析は、すべてのモデルで生成された視覚的解釈に対して自信ある説明を示し、テキストのショートカットと真の視覚的分析への依存度が異なることを示唆している。
これらの知見は, モデルロバスト性と, 臨床展開前の厳密な評価の必要性に重要な違いを呈するものである。
関連論文リスト
- EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - COREVQA: A Crowd Observation and Reasoning Entailment Visual Question Answering Benchmark [3.5018278981067685]
COREVQA (Crowd Observations and Reasoning Entailment) は5608の画像と合成生成された真/偽のステートメントペアのベンチマークである。
以上の結果から,トップパフォーマンスのVLMでも80%以下で精度が向上し,他のモデルも大幅に悪化した。
論文 参考訳(メタデータ) (2025-07-17T04:47:47Z) - An Early Investigation into the Utility of Multimodal Large Language Models in Medical Imaging [0.3029213689620348]
医用画像解析のためのGemini(textitgemini-1.0-pro-vision-latst)モデルとGPT-4Vモデルの可能性を探る。
Gemini AIとGPT-4Vはどちらも、まず実画像と合成画像の分類に使用され、次に入力画像の解釈と解析を行う。
本研究で紹介した早期研究は,網膜眼底鏡および肺X線像の分類と解釈を支援するMLLMの可能性についての知見を提供するものである。
論文 参考訳(メタデータ) (2024-06-02T08:29:23Z) - Language Models Meet Anomaly Detection for Better Interpretability and Generalizability [13.674931689496225]
本研究では,医療画像における言語モデルと教師なし異常検出の統合について検討する。
脳磁気共鳴画像におけるマルチイメージ視覚的質問応答のための新しいデータセットを提案する。
本モデルでは, 閉鎖質問に対する60.81%の精度を達成し, 疾患の分類と重症度を15種類のクラスに分けた。
論文 参考訳(メタデータ) (2024-04-11T10:16:44Z) - Multimodal Foundation Models Exploit Text to Make Medical Image Predictions [3.4230952713864373]
我々は、画像やテキストを含む様々なデータモダリティを、マルチモーダル基礎モデルが統合し、優先順位付けするメカニズムを評価する。
以上の結果から,マルチモーダルAIモデルは医学的診断的推論に有用であるが,テキストの活用によって精度が大きく向上することが示唆された。
論文 参考訳(メタデータ) (2023-11-09T18:48:02Z) - Holistic Analysis of Hallucination in GPT-4V(ision): Bias and
Interference Challenges [54.42256219010956]
このベンチマークは、視覚言語モデルにおける2つの一般的な幻覚、すなわちバイアスと干渉を評価するために設計されている。
偏見はモデルがある種の反応を幻覚させる傾向を示すもので、おそらくはトレーニングデータの不均衡によるものである。
干渉とは、テキストプロンプトのフレーズ化や入力画像の表示方法によって、GPT-4V(ision)の判定が破壊されるシナリオである。
論文 参考訳(メタデータ) (2023-11-06T17:26:59Z) - HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models [69.52245481329899]
本稿では,画像コンテキスト推論評価のためのベンチマークであるHalusionBenchを紹介する。
このベンチマークは、1129の質問と組み合わせた346の画像で構成されており、すべて人間の専門家によって細心の注意を払って作成されている。
HallusionBenchの評価では、15種類のモデルをベンチマークし、最先端のGPT-4Vによって達成された31.42%の質問対精度を強調した。
論文 参考訳(メタデータ) (2023-10-23T04:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。