論文の概要: CURE: A Multimodal Benchmark for Clinical Understanding and Retrieval Evaluation
- arxiv url: http://arxiv.org/abs/2603.19274v1
- Date: Sat, 28 Feb 2026 02:56:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.821393
- Title: CURE: A Multimodal Benchmark for Clinical Understanding and Retrieval Evaluation
- Title(参考訳): CURE: 臨床的理解と検索のためのマルチモーダルベンチマーク
- Authors: Yannian Gu, Zhongzhen Huang, Linjie Mu, Xizhuo Zhang, Shaoting Zhang, Xiaofan Zhang,
- Abstract要約: 臨床理解・検索評価ベンチマークについて紹介する。
CUREは、制御されたエビデンス設定の下で推論と検索を評価する。
閉鎖的, オープンな診断タスクにおいて, 異なるエビデンス収集パラダイムにまたがる最先端のMLLMを評価した。
- 参考スコア(独自算出の注目度): 15.226811873305072
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal large language models (MLLMs) demonstrate considerable potential in clinical diagnostics, a domain that inherently requires synthesizing complex visual and textual data alongside consulting authoritative medical literature. However, existing benchmarks primarily evaluate MLLMs in end-to-end answering scenarios. This limits the ability to disentangle a model's foundational multimodal reasoning from its proficiency in evidence retrieval and application. We introduce the Clinical Understanding and Retrieval Evaluation (CURE) benchmark. Comprising $500$ multimodal clinical cases mapped to physician-cited reference literature, CURE evaluates reasoning and retrieval under controlled evidence settings to disentangle their respective contributions. We evaluate state-of-the-art MLLMs across distinct evidence-gathering paradigms in both closed-ended and open-ended diagnosis tasks. Evaluations reveal a stark dichotomy: while advanced models demonstrate clinical reasoning proficiency when supplied with physician reference evidence (achieving up to $73.4\%$ accuracy on differential diagnosis), their performance substantially declines (as low as $25.4\%$) when reliant on independent retrieval mechanisms. This disparity highlights the dual challenges of effectively integrating multimodal clinical evidence and retrieving precise supporting literature. CURE is publicly available at https://github.com/yanniangu/CURE.
- Abstract(参考訳): MLLM(Multimodal large language model)は臨床診断において大きな可能性を秘めている。
しかし、既存のベンチマークは主にエンドツーエンドの回答シナリオでMLLMを評価している。
これは、モデルの基本的マルチモーダル推論を、エビデンス検索と応用の能力から切り離す能力を制限する。
臨床理解・検索評価(CURE)ベンチマークについて紹介する。
医師主導の参考文献にマッピングされた500ドルのマルチモーダル臨床症例を補完し, CUREは, 制御されたエビデンス設定下での推論と検索を評価し, それぞれのコントリビューションを解体する。
閉鎖的, オープンな診断タスクにおいて, 異なるエビデンス収集パラダイムにまたがる最先端のMLLMを評価した。
先進的なモデルは、医師の基準証拠が供給されたときに臨床推論能力を示すが(鑑別診断で最大7.3.4\%の精度を達成)、独立した検索機構に依存すると、その性能は著しく低下する(25.4\%のコスト)。
この格差は、マルチモーダルな臨床証拠を効果的に統合し、正確な支援文献を取得するという2つの課題を浮き彫りにする。
CUREはhttps://github.com/yanniangu/CUREで公開されている。
関連論文リスト
- Clinical Cognition Alignment for Gastrointestinal Diagnosis with Multimodal LLMs [63.535652574541764]
MLLM(Multimodal Large Language Models)は医用画像解析において顕著な可能性を示した。
消化器内視鏡におけるそれらの応用は、現在、2つの重要な限界によって妨げられている。
本稿では,これらの課題に対処する新しい臨床認知アライメント(CogAlign)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-21T07:47:37Z) - Mind the Rarities: Can Rare Skin Diseases Be Reliably Diagnosed via Diagnostic Reasoning? [31.103598483020857]
大規模視覚言語モデル(LVLM)は皮膚学において強い性能を示す。
稀な疾患に対する診断的推論は ほとんど未発見のままです
このデータセットには26,030のマルチモーダル画像テキストペアと6,354の臨床的に困難な症例が含まれている。
LVLMをリードするベンチマーク22は、診断精度、鑑別診断、臨床推論に重大な欠陥を呈する。
論文 参考訳(メタデータ) (2026-03-19T02:25:36Z) - MedDialogRubrics: A Comprehensive Benchmark and Evaluation Framework for Multi-turn Medical Consultations in Large Language Models [15.91764739198419]
5,200件の患者と6万件以上のきめ細粒度評価ルーブリックからなる新規なベンチマークであるMedDialogRubricsについて紹介する。
本フレームワークでは,実世界の電子的健康記録にアクセスすることなく,現実的な患者記録と主訴を合成するマルチエージェントシステムを採用している。
論文 参考訳(メタデータ) (2026-01-06T13:56:33Z) - ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。
本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。
実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文 参考訳(メタデータ) (2025-12-29T12:58:58Z) - Proactive Reasoning-with-Retrieval Framework for Medical Multimodal Large Language Models [15.530083855947987]
我々は,Med-RwR を用いた最初のマルチモーダル医療推論フレームワークを提案する。
Med-RwRは、推論中に観察された症状やドメイン固有の医療概念を問い合わせることで、外部知識を積極的に回収する。
様々な公開医療ベンチマークの評価は、Med-RwRのベースラインモデルに対する大幅な改善を示している。
論文 参考訳(メタデータ) (2025-10-21T05:18:18Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。