論文の概要: MedObvious: Exposing the Medical Moravec's Paradox in VLMs via Clinical Triage
- arxiv url: http://arxiv.org/abs/2603.23501v1
- Date: Tue, 24 Mar 2026 17:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.635599
- Title: MedObvious: Exposing the Medical Moravec's Paradox in VLMs via Clinical Triage
- Title(参考訳): MedObvious:VLMにおける医療モラベックのパラドックスの臨床的検討
- Authors: Ufaq Khan, Umair Nawaz, L D M S S Teja, Numaan Saeed, Muhammad Bilal, Yutong Xie, Mohammad Yaqub, Muhammad Haris Khan,
- Abstract要約: ビジョン言語モデル(VLM)は、医療報告生成や視覚的質問応答といったタスクにますます使われています。
臨床実践では、解釈は診断前の衛生検査から始まる。
既存のベンチマークでは、このステップが解決されたと仮定しており、致命的な障害モードを見逃している。
我々は1,880タスクのベンチマークであるMedObviousを導入し、入力検証をセットレベルの一貫性機能として分離する。
- 参考スコア(独自算出の注目度): 20.835664121303534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Language Models (VLMs) are increasingly used for tasks like medical report generation and visual question answering. However, fluent diagnostic text does not guarantee safe visual understanding. In clinical practice, interpretation begins with pre-diagnostic sanity checks: verifying that the input is valid to read (correct modality and anatomy, plausible viewpoint and orientation, and no obvious integrity violations). Existing benchmarks largely assume this step is solved, and therefore miss a critical failure mode: a model can produce plausible narratives even when the input is inconsistent or invalid. We introduce MedObvious, a 1,880-task benchmark that isolates input validation as a set-level consistency capability over small multi-panel image sets: the model must identify whether any panel violates expected coherence. MedObvious spans five progressive tiers, from basic orientation/modality mismatches to clinically motivated anatomy/viewpoint verification and triage-style cues, and includes five evaluation formats to test robustness across interfaces. Evaluating 17 different VLMs, we find that sanity checking remains unreliable: several models hallucinate anomalies on normal (negative-control) inputs, performance degrades when scaling to larger image sets, and measured accuracy varies substantially between multiple-choice and open-ended settings. These results show that pre-diagnostic verification remains unsolved for medical VLMs and should be treated as a distinct, safety-critical capability before deployment.
- Abstract(参考訳): ビジョン言語モデル(VLM)は、医療報告生成や視覚的質問応答といったタスクにますます使われています。
しかし、フロート診断テキストは、安全な視覚的理解を保証するものではない。
臨床実践において、解釈は事前診断の正当性チェック(英: pre-diagnostic sanity checks)から始まる。
既存のベンチマークでは、このステップが解決され、致命的な障害モードが欠落していると推定されている。
我々はMedObviousという1,880タスクのベンチマークを導入し、小さなマルチパネル画像集合に対して、入力検証をセットレベルの一貫性能力として分離する。
MedObviousは、基本的なオリエンテーション/モダリティのミスマッチから、臨床的に動機付けられた解剖学/ビューポイントの検証とトリアージスタイルのキューまでの5段階にまたがっており、インターフェース間の堅牢性をテストするための5つの評価フォーマットを含んでいる。
いくつかのモデルでは、通常の(負制御)入力に対する異常を幻覚し、より大きな画像集合へのスケーリング時に性能が低下し、測定精度は多重選択とオープンエンド設定の間で大きく変化している。
これらの結果から, 医療用VLMでは診断前の検証は未解決であり, デプロイ前には, 明確な安全クリティカルな機能として扱われるべきであることが示唆された。
関連論文リスト
- Stop Listening to Me! How Multi-turn Conversations Can Degrade Diagnostic Reasoning [12.166175637413637]
3つの臨床データセットから17の大規模言語モデル(LLM)を評価する。
モデル信念を測定するための"スティック・オア・スウィッチ"評価フレームワークを開発した。
実験の結果,マルチターンインタラクションが常に性能を低下させる会話税が明らかにされた。
論文 参考訳(メタデータ) (2026-03-12T00:14:35Z) - M3CoTBench: Benchmark Chain-of-Thought of MLLMs in Medical Image Understanding [66.78251988482222]
CoT(Chain-of-Thought)推論は、ステップバイステップの中間推論を奨励することによって、大規模言語モデルの強化に有効であることが証明されている。
医用画像理解のための現在のベンチマークでは、推論パスを無視しながら最終回答に重点を置いている。
M3CoTBenchは、透明で信頼性が高く、診断的に正確な医療用AIシステムの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2026-01-13T17:42:27Z) - Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models [48.95516224614331]
MedGaze-Benchは、臨床医の視線を認知的カーソルとして活用し、手術、緊急シミュレーション、診断解釈における意図的理解を評価する最初のベンチマークである。
本ベンチマークでは,解剖学的構造の視覚的均一性,臨床における時間・因果依存性の厳格化,安全プロトコルへの暗黙の順守という3つの基本的な課題に対処する。
論文 参考訳(メタデータ) (2026-01-11T02:20:40Z) - Knowing or Guessing? Robust Medical Visual Question Answering via Joint Consistency and Contrastive Learning [34.6490677122246]
医用視覚質問応答における不安定性について,現在の医用視覚言語モデル (Med-VLMs) を用いて検討した。
本稿では,知識適応型一貫性学習とバイアス認識型コントラスト学習を統合した一貫性・コントラスト学習(CCL)を提案する。
CCLは3つの人気のあるVQAベンチマークでSOTAのパフォーマンスを達成し、特にRoMedテストセットで解の一貫性を50%向上させる。
論文 参考訳(メタデータ) (2025-08-26T05:21:19Z) - SURE-Med: Systematic Uncertainty Reduction for Enhanced Reliability in Medical Report Generation [2.2185034594788164]
視覚, 分布, 文脈の3つの重要な次元における不確実性を体系的に低減する統合フレームワークSURE-Medを提案する。
視覚的不確実性を軽減するため、Frontal-Aware View Resamplingモジュールはビューアノテーションエラーを修正し、補足ビューから情報的特徴を適応的に選択する。
ラベル分布の不確実性に対処するために,批判的診断文のモデリングを促進させるToken Sensitive Learningの目標を提案する。
文脈不確実性を低減するため、文脈証拠フィルタは、現在の画像と整合する事前情報を検証し、選択的に組み込んで、幻覚を効果的に抑制する。
論文 参考訳(メタデータ) (2025-08-03T09:52:30Z) - DeVisE: Behavioral Testing of Medical Large Language Models [14.832083455439749]
DeVisEは、きめ細かい臨床的理解を求めるための行動テストフレームワークである。
我々はMIMIC-IVからICU排出音符のデータセットを構築した。
汎用型および医療用微調整型にまたがる5種類のLSMについて検討した。
論文 参考訳(メタデータ) (2025-06-18T10:42:22Z) - SURE-VQA: Systematic Understanding of Robustness Evaluation in Medical VQA Tasks [2.033441577169909]
VLM(Vision-Language Models)は、VQA(Visual Question Answering)のような医療タスクにおいて大きな可能性を秘めている。
目に見えないデータに対する分散シフトに対する堅牢性は、安全なデプロイメントにとって重要な関心事です。
私たちは、現在の落とし穴を克服する3つの重要な要件を中心に、SURE-VQAと呼ばれる新しいフレームワークを紹介します。
論文 参考訳(メタデータ) (2024-11-29T13:22:52Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。