論文の概要: The Illusion of Clinical Reasoning: A Benchmark Reveals the Pervasive Gap in Vision-Language Models for Clinical Competency
- arxiv url: http://arxiv.org/abs/2512.22275v1
- Date: Thu, 25 Dec 2025 03:33:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.952734
- Title: The Illusion of Clinical Reasoning: A Benchmark Reveals the Pervasive Gap in Vision-Language Models for Clinical Competency
- Title(参考訳): 臨床推論のイラシオン:臨床能力のための視覚・言語モデルにおける広汎なギャップのベンチマーク
- Authors: Dingyu Wang, Zimu Yuan, Jiajun Liu, Shanggui Liu, Nan Zhou, Tianxing Xu, Di Huang, Dong Jiang,
- Abstract要約: 現在のベンチマークでは、現実の患者のケアに不可欠な統合されたマルチモーダルな推論を捉えられていない。
このベンチマークは、臨床推論経路を反映する7つのタスクにわたるモデルを評価する。
現在の人工知能モデルは、複雑なマルチモーダル推論にはまだ臨床的に適していない。
- 参考スコア(独自算出の注目度): 38.68458713626548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: The rapid integration of foundation models into clinical practice and public health necessitates a rigorous evaluation of their true clinical reasoning capabilities beyond narrow examination success. Current benchmarks, typically based on medical licensing exams or curated vignettes, fail to capture the integrated, multimodal reasoning essential for real-world patient care. Methods: We developed the Bones and Joints (B&J) Benchmark, a comprehensive evaluation framework comprising 1,245 questions derived from real-world patient cases in orthopedics and sports medicine. This benchmark assesses models across 7 tasks that mirror the clinical reasoning pathway, including knowledge recall, text and image interpretation, diagnosis generation, treatment planning, and rationale provision. We evaluated eleven vision-language models (VLMs) and six large language models (LLMs), comparing their performance against expert-derived ground truth. Results: Our results demonstrate a pronounced performance gap between task types. While state-of-the-art models achieved high accuracy, exceeding 90%, on structured multiple-choice questions, their performance markedly declined on open-ended tasks requiring multimodal integration, with accuracy scarcely reaching 60%. VLMs demonstrated substantial limitations in interpreting medical images and frequently exhibited severe text-driven hallucinations, often ignoring contradictory visual evidence. Notably, models specifically fine-tuned for medical applications showed no consistent advantage over general-purpose counterparts. Conclusions: Current artificial intelligence models are not yet clinically competent for complex, multimodal reasoning. Their safe deployment should currently be limited to supportive, text-based roles. Future advancement in core clinical tasks awaits fundamental breakthroughs in multimodal integration and visual understanding.
- Abstract(参考訳): 背景: 基礎モデルの臨床実践と公衆衛生への迅速な統合は, 検査成功以上の臨床推論能力の厳密な評価を必要とする。
現在のベンチマークは、典型的には医療免許試験や治療用ヴィグネットに基づいており、現実の患者に不可欠な統合されたマルチモーダルな推論を捉えていない。
方法: 整形外科およびスポーツ医学における実際の患者から得られた1,245の質問を総合的に評価するB&Jベンチマークを開発した。
このベンチマークは、知識リコール、テキストと画像の解釈、診断生成、治療計画、合理的プロビジョニングを含む、臨床推論経路を反映する7つのタスクのモデルを評価する。
我々は11の視覚言語モデル(VLM)と6つの大言語モデル(LLM)を評価し、その性能を専門家由来の基底真理と比較した。
結果: この結果から, タスクタイプ間での顕著なパフォーマンスギャップが示された。
最先端のモデルでは、構造化された複数項目の質問に対して90%を超える高い精度を達成したが、その性能は、マルチモーダル統合を必要とするオープンなタスクにおいて著しく低下し、精度は60%にも達しなかった。
VLMは医療画像の解釈にかなりの限界を示し、しばしば激しいテキスト駆動幻覚を示し、矛盾する視覚的証拠を無視した。
特に、医学応用用に特別に調整されたモデルでは、汎用のモデルに対して一貫した優位性は示さなかった。
結論: 現在の人工知能モデルは、複雑なマルチモーダル推論にまだ臨床に適していない。
安全なデプロイメントは、現在サポートされたテキストベースのロールに限定されるべきである。
コア臨床タスクの今後の進歩は、マルチモーダル統合と視覚的理解の基本的なブレークスルーを待っている。
関連論文リスト
- Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - How Far Have Medical Vision-Language Models Come? A Comprehensive Benchmarking Study [16.84832179579428]
VLM(Vision-Language Models)は、Webスケールのコーパスを訓練し、自然画像のタスクに優れ、医療に利用されつつある。
本稿では,8つのベンチマークを用いて,オープンソース汎用および医療専門のVLMの総合評価を行う。
まず、大規模な汎用モデルは、いくつかのベンチマークで、すでに医学固有のモデルと一致しているか、あるいは超えている。
第二に、推論のパフォーマンスは理解よりも一貫して低く、安全な意思決定支援にとって重要な障壁を強調します。
論文 参考訳(メタデータ) (2025-07-15T11:12:39Z) - Architecting Clinical Collaboration: Multi-Agent Reasoning Systems for Multimodal Medical VQA [1.2744523252873352]
遠隔医療による皮膚科医療は、しばしば個人訪問の豊かな文脈を欠いている。
本研究は,6つの構成にまたがる医用視覚質問応答の視覚言語モデルについて検討した。
論文 参考訳(メタデータ) (2025-07-07T22:31:56Z) - DrVD-Bench: Do Vision-Language Models Reason Like Human Doctors in Medical Image Diagnosis? [1.1094764204428438]
臨床ビジュアル推論のための最初のベンチマークであるDrVD-Benchを提案する。
DrVD-Benchは、ビジュアルエビデンス、推論軌道評価、レポート生成評価の3つのモジュールで構成されている。
本ベンチマークでは,20のタスクタイプ,17の診断カテゴリ,CT,MRI,超音波,X線撮影,病理の5つの画像モダリティについて検討した。
論文 参考訳(メタデータ) (2025-05-30T03:33:25Z) - EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [62.00431604976949]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。
我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。
私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文 参考訳(メタデータ) (2025-05-29T16:14:34Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。