論文の概要: Med-CMR: A Fine-Grained Benchmark Integrating Visual Evidence and Clinical Logic for Medical Complex Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2512.00818v1
- Date: Sun, 30 Nov 2025 09:56:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.434728
- Title: Med-CMR: A Fine-Grained Benchmark Integrating Visual Evidence and Clinical Logic for Medical Complex Multimodal Reasoning
- Title(参考訳): Med-CMR : 医用複合型マルチモーダル推論のためのビジュアルエビデンスと臨床論理を統合したベンチマーク
- Authors: Haozhen Gong, Xiaozhong Ji, Yuansen Liu, Wenbin Wu, Xiaoxiao Yan, Jingjing Liu, Kai Wu, Jiazhen Pan, Bailiang Jian, Jiangning Zhang, Xiaobin Hu, Hongwei Bran Li,
- Abstract要約: Med-CMR(Med-CMR)について述べる。
Med-CMRは既存のものと3つのコア機能で区別する。
我々は,Med-CMRを用いた18種類の最先端MLLMを評価し,GPT-5を最高性能の商用モデルとして明らかにした。
- 参考スコア(独自算出の注目度): 37.6854362777847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: MLLMs MLLMs are beginning to appear in clinical workflows, but their ability to perform complex medical reasoning remains unclear. We present Med-CMR, a fine-grained Medical Complex Multimodal Reasoning benchmark. Med-CMR distinguishes from existing counterparts by three core features: 1) Systematic capability decomposition, splitting medical multimodal reasoning into fine-grained visual understanding and multi-step reasoning to enable targeted evaluation; 2) Challenging task design, with visual understanding across three key dimensions (small-object detection, fine-detail discrimination, spatial understanding) and reasoning covering four clinically relevant scenarios (temporal prediction, causal reasoning, long-tail generalization, multi-source integration); 3) Broad, high-quality data coverage, comprising 20,653 Visual Question Answering (VQA) pairs spanning 11 organ systems and 12 imaging modalities, validated via a rigorous two-stage (human expert + model-assisted) review to ensure clinical authenticity. We evaluate 18 state-of-the-art MLLMs with Med-CMR, revealing GPT-5 as the top-performing commercial model: 57.81 accuracy on multiple-choice questions (MCQs) and a 48.70 open-ended score, outperforming Gemini 2.5 Pro (49.87 MCQ accuracy, 45.98 open-ended score) and leading open-source model Qwen3-VL-235B-A22B (49.34 MCQ accuracy, 42.62 open-ended score). However, specialized medical MLLMs do not reliably outperform strong general models, and long-tail generalization emerges as the dominant failure mode. Med-CMR thus provides a stress test for visual-reasoning integration and rare-case robustness in medical MLLMs, and a rigorous yardstick for future clinical systems.
- Abstract(参考訳): MLLMs MLLMsは、臨床ワークフローに現れ始めているが、複雑な医学的推論を行う能力は、まだ不明である。
Med-CMR(Med-CMR)について述べる。
Med-CMRは既存のものと3つのコア機能で区別する。
1) 医学的マルチモーダル推論を微粒な視覚的理解と多段階推論に分割して対象評価を可能にする系統的能力分解
2)3つの重要な側面(小対象の検出、細部識別、空間的理解)を視覚的に理解し、臨床に関係のある4つのシナリオ(時間的予測、因果推論、ロングテール一般化、複数ソース統合)をカバーしたタスク設計
3)11の臓器系にまたがる視覚質問応答(VQA)ペア20,653,12の画像モダリティからなる広範かつ高品質なデータカバレッジを,厳密な2段階(人間専門家+モデル支援)レビューを通じて検証し,臨床の信頼性を確保する。
我々は、Med-CMRを用いた18の最先端MLLMを評価し、GPT-5を最高性能の商用モデルとして、マルチチョイス質問(MCQ)における57.81の精度と48.70のオープンエンドスコア、Gemini 2.5 Pro(49.87 MCQの精度、45.98のオープンエンドスコア)および主要なオープンソースモデルQwen3-VL-235B-A22B(49.34 MCQの精度、42.62のオープンエンドスコア)を明らかにした。
しかし、特殊な医療用MLLMは強力な一般モデルより確実に優れているとは言い難いため、ロングテールの一般化が主流の障害モードとして現れる。
したがって、Med-CMRは、医療MLLMにおける視覚的推論の統合とまれなケースの堅牢性のためのストレステスト、および将来の臨床システムのための厳密なヤードスティックを提供する。
関連論文リスト
- OmniBrainBench: A Comprehensive Multimodal Benchmark for Brain Imaging Analysis Across Multi-stage Clinical Tasks [41.33747208780257]
マルチモーダル大言語モデル(MLLM)は、脳画像解析をますます支援している。
現在の脳指向視覚質問応答(VQA)ベンチマークは、いくつかの画像モダリティをカバーするか、または粗い病理学的記述に限定されている。
OmniBrainBenchは,脳画像解析におけるMLLMのマルチモーダル理解能力を評価するために設計された,初めての総合的マルチモーダルVQAベンチマークである。
論文 参考訳(メタデータ) (2025-11-02T08:11:55Z) - Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - MedCoT-RAG: Causal Chain-of-Thought RAG for Medical Question Answering [4.285647375182588]
大規模言語モデル (LLM) は医学的な疑問に答える上で有望であるが、幻覚や浅い推論に苦しむことが多い。
Retrieval-augmented Generation (RAG)は、外部の医療知識でLSMを強化するための実用的でプライバシー保護の手段を提供する。
MedCoT-RAGは、因果認識ドキュメント検索と構造化チェーン・オブ・シークレット・プロンプトを組み合わせたドメイン固有フレームワークである。
論文 参考訳(メタデータ) (2025-08-20T05:43:26Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [69.46279475491164]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - CAPO: Reinforcing Consistent Reasoning in Medical Decision-Making [42.28216499263317]
Med-Zero-17Kは、純粋なRLベースのトレーニングのためのキュレートされたデータセットであり、30以上の医療画像モダリティと24の臨床的タスクを含んでいる。
本稿では,Med-VLM のための大規模 RL フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-15T13:42:46Z) - MedOrch: Medical Diagnosis with Tool-Augmented Reasoning Agents for Flexible Extensibility [38.33724495011223]
MedOrchは、専門的なツールや推論エージェントを編成し、総合的な医療的意思決定支援を提供する新しいフレームワークである。
我々は,アルツハイマー病の診断,胸部X線解釈,医用視覚質問応答の3つの医学的応用からMedOrchを評価した。
論文 参考訳(メタデータ) (2025-05-30T21:13:12Z) - EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [62.00431604976949]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。
我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。
私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文 参考訳(メタデータ) (2025-05-29T16:14:34Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。