論文の概要: How Do Medical MLLMs Fail? A Study on Visual Grounding in Medical Images
- arxiv url: http://arxiv.org/abs/2603.14323v1
- Date: Sun, 15 Mar 2026 10:46:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.747271
- Title: How Do Medical MLLMs Fail? A Study on Visual Grounding in Medical Images
- Title(参考訳): 医療MLLMはどのように機能するか : 医用画像の視覚的グラウンドリングに関する研究
- Authors: Guimeng Liu, Tianze Yu, Somayeh Ebrahimkhani, Lin Zhi Zheng Shawn, Kok Pin Ng, Ngai-Man Cheung,
- Abstract要約: MLLM(Generalist Multimodal Large Language Model)は、様々な視覚言語タスクにおいて、優れたパフォーマンスを実現している。
しかし、特に一般化が重要となるゼロショット環境での医療タスクにおけるパフォーマンスは、依然として最適以下である。
本稿では,最先端医療MLLMの視覚的基盤機能に関する先駆的な研究について述べる。
- 参考スコア(独自算出の注目度): 16.362951636873248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalist multimodal large language models (MLLMs) have achieved impressive performance across a wide range of vision-language tasks. However, their performance on medical tasks, particularly in zero-shot settings where generalization is critical, remains suboptimal. A key research gap is the limited understanding of why medical MLLMs underperform in medical image interpretation. In this work, we present a pioneering systematic investigation into the visual grounding capabilities of state-of-the-art medical MLLMs. To disentangle visual grounding from semantic grounding, we design VGMED, a novel evaluation dataset developed with expert clinical guidance, explicitly assessing the visual grounding capability of medical MLLMs. We introduce new quantitative metrics and conduct detailed qualitative analyses. Our study across eight state-of-the-art (SOTA) medical MLLMs validates that they often fail to ground their predictions in clinically relevant image regions. We note that this finding is specific to medical image analysis; in contrast, prior work has shown that MLLMs are capable of grounding their predictions in the correct image regions when applied to natural scene images. Motivated by these findings, we propose VGRefine, a simple yet effective inference-time method that refines attention distribution to improve visual grounding in medical settings. Our approach achieves SOTA performance across 6 diverse Med-VQA benchmarks (over 110K VQA samples from 8 imaging modalities) without requiring additional training or external expert models. Overall, our work, for the first time, systematically validates inadequate visual grounding as one of the key contributing factors for medical MLLMs' under-performance. Additional experiments are included in the Supp.
- Abstract(参考訳): MLLM(Generalist Multimodal Large Language Model)は、様々な視覚言語タスクにおいて、優れたパフォーマンスを実現している。
しかし、特に一般化が重要となるゼロショット環境での医療タスクにおけるパフォーマンスは、依然として最適以下である。
重要な研究のギャップは、医学的MLLMが医学的イメージの解釈に不適当である理由の限定的な理解である。
本研究では,最先端医療MLLMの視覚的基盤能力に関する先駆的な研究を行う。
セマンティックグラウンドティングから視覚的グラウンドディングを遠ざけるために,専門的な臨床ガイダンスで開発された新しい評価データセットであるVGMEDを設計し,医療MLLMの視覚的グラウンドディング能力を明確に評価した。
我々は,新しい定量指標を導入し,詳細な定性分析を行う。
8つの最先端医療MLLM(State-of-the-art (SOTA) Medical MLLM)を対象とし,臨床画像領域において予測を下方修正できないことが確認された。
この発見は, 医用画像解析に特有であり, 従来の研究では, MLLMは自然シーン画像に適用した場合に, 正しい画像領域で予測を下方修正できることが示されている。
これらの知見に触発されたVGRefineは,医療現場における視覚的接地を改善するために,注意分布を改良する簡易かつ効果的な推論時間法である。
本手法は,6種類のMed-VQAベンチマーク(8つの画像モダリティから110K以上のVQAサンプル)に対して,追加のトレーニングや外部の専門家モデルを必要としないSOTA性能を実現する。
全体として、我々の研究は、医療MLLMの低パフォーマンスに寄与する要因の1つとして、視覚的接地が不十分であることを初めて体系的に検証した。
Suppには追加の実験が含まれている。
関連論文リスト
- Does medical specialization of VLMs enhance discriminative power?: A comprehensive investigation through feature distribution analysis [2.243145970857166]
本研究では,オープンソース医療ビジョン言語モデル(VLM)が生成する特徴表現について検討する。
実験の結果,医療用VLMは,医療用分類作業に有効な識別的特徴を抽出できることがわかった。
以上の結果から,医療用VLMの開発において,テキストエンコーダの強化は医用画像の集中的な訓練よりも重要であることが示唆された。
論文 参考訳(メタデータ) (2026-01-21T08:53:40Z) - Evaluating the Diagnostic Classification Ability of Multimodal Large Language Models: Insights from the Osteoarthritis Initiative [14.002322217782364]
マルチモーダル大言語モデル(MLLM)は,医療視覚的質問応答(VQA)とレポート生成において有望な性能を示す。
膝関節症(OA)分類におけるMLLMアーキテクチャの検討を行った。
論文 参考訳(メタデータ) (2026-01-05T13:31:44Z) - TemMed-Bench: Evaluating Temporal Medical Image Reasoning in Vision-Language Models [54.48710348910535]
既存の医学推論ベンチマークは、主に1回の訪問からの画像に基づいて患者の状態を分析することに焦点を当てている。
臨床訪問における患者の状態の変化を分析するための最初のベンチマークであるTemMed-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-29T17:51:26Z) - Medical Large Vision Language Models with Multi-Image Visual Ability [46.889345205047675]
83.2Kの医療用マルチイメージQAペアからなるMed-MIM命令データセットを提案する。
我々は,マンティスとLLaVA-Medを微調整し,MIM-LLaVA-MedとMed-Mantisの2種類の専門医用VLMを作製した。
また,LVLMの医用マルチイメージ理解能力を評価するために,Med-MIMベンチマークを開発した。
論文 参考訳(メタデータ) (2025-05-25T08:31:22Z) - LLaVA-RadZ: Can Multimodal Large Language Models Effectively Tackle Zero-shot Radiology Recognition? [59.81732629438753]
LLaVA-RadZは、既存のMLLM機能を利用して、ゼロショットの医療疾患認識のための、シンプルで効果的なフレームワークである。
具体的には、MLLMデコーダアーキテクチャの特性を活用するために、DFAT(Decoding-Side Feature Alignment Training)と呼ばれるエンドツーエンドのトレーニング戦略を設計する。
また,大規模モデルの本質的な医学的知識を活用するために,DKAM(Domain Knowledge Anchoring Module)を導入する。
論文 参考訳(メタデータ) (2025-03-10T16:05:40Z) - Improving Medical Large Vision-Language Models with Abnormal-Aware Feedback [57.98393950821579]
医学的異常を明らかにするための新しいUMed-LVLMを提案する。
本稿では,GPT-4Vを用いた診断手法を提案する。
UMed-LVLMは既存のMed-LVLMよりも医療異常の同定と理解に優れていた。
論文 参考訳(メタデータ) (2025-01-02T17:37:20Z) - Parameter-Efficient Fine-Tuning Medical Multimodal Large Language Models for Medical Visual Grounding [9.144030136201476]
マルチモーダル大言語モデル(MLLM)は、LLMの優れたテキスト理解能力を継承し、これらの機能をマルチモーダルシナリオに拡張する。
これらのモデルは、マルチモーダルタスクの一般領域において優れた結果をもたらす。
しかし,医療分野では,医療用MLLMの開発に多大なトレーニングコストと広範な医療データを必要とすることが課題となっている。
論文 参考訳(メタデータ) (2024-10-31T11:07:26Z) - MedVH: Towards Systematic Evaluation of Hallucination for Large Vision Language Models in the Medical Context [21.562034852024272]
LVLM(Large Vision Language Models)は、最近、自然画像やテキストデータにおける様々なタスクにおいて、優れたパフォーマンスを実現している。
それらの進歩にもかかわらず、より小さなデータセットで微調整された場合の幻覚に対するこれらのモデルの堅牢性について、精査された研究がなされている。
領域固有のLVLMの幻覚を評価するために,新しいベンチマークデータセットであるMedVH(MedVH)を導入する。
論文 参考訳(メタデータ) (2024-07-03T00:59:03Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。