Fugu-MT 論文翻訳(概要): ClinicalMC: A Benchmark for Multi-Course Clinical Decision-Making with Large Language Models

論文の概要: ClinicalMC: A Benchmark for Multi-Course Clinical Decision-Making with Large Language Models

arxiv url: http://arxiv.org/abs/2606.03157v1
Date: Tue, 02 Jun 2026 05:09:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-03 22:00:04.768466
Title: ClinicalMC: A Benchmark for Multi-Course Clinical Decision-Making with Large Language Models
Title（参考訳）: 臨床MC:大規模言語モデルを用いたマルチコース臨床意思決定のためのベンチマーク
Authors: Ruihui Hou, Siyi Zhu, Ziyue Huai, Guangya Yu, Yongqi Fan, Chunming Wang, Tong Ruan,
Abstract要約: 我々は,多コース臨床意思決定のためのベンチマークであるCrysicalMCを提案する。 1,275人の中国人と5,804人のイギリス人サンプルが入所から退院までの4段階にわたって含まれている。英語データセットの患者は平均5.11の臨床コースを受けており、中国語データセットの患者は3.42である。
参考スコア（独自算出の注目度）: 10.202247075910412
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have been widely adopted in healthcare, yet they still encounter significant challenges in complex clinical decision-making scenarios. Existing benchmarks primarily assess LLM performance in single-course settings and lack systematic evaluation in multi-course scenarios, where a patient's condition evolves over time. To address this gap, we propose ClinicalMC, a benchmark for multi-course clinical decision-making. It includes 1,275 Chinese and 5,804 English samples across four stages from admission to discharge. These stages cover triage, first-course examination/diagnosis/treatment, subsequent multi-course examination/assessment/treatment, and final diagnosis. In ClinicalMC, patients in the English dataset undergo an average of 5.11 clinical courses, whereas those in the Chinese dataset undergo 3.42. To assess LLM performance, we construct a multi-agent evaluation framework that includes patient, examiner, and doctor agents. Based on the benchmark and framework, we design two experimental settings -- a single-turn static setting and a multi-turn dynamic setting -- and assess three categories of LLMs: 1) closed-source LLMs like GPT5-mini; 2) open-source LLMs like DeepSeek-V3.2; and 3) medical LLMs like HuatuoGPT-o1. Through extensive evaluation, we aim to better understand LLM performance in the medical domain and support its effective deployment in healthcare.
Abstract（参考訳）: 大規模言語モデル(LLM)は、医療において広く採用されているが、複雑な臨床的意思決定シナリオにおいて大きな課題に直面している。既存のベンチマークでは、主にシングルコース設定におけるLCMのパフォーマンスを評価し、患者の状態が時間とともに変化するマルチコースシナリオにおいて体系的な評価を欠いている。このギャップに対処するため,多コース臨床意思決定のためのベンチマークであるCylyMCを提案する。 1,275人の中国人と5,804人のイギリス人サンプルが入所から退院までの4段階にわたって含まれている。これらの段階は, トリアージ, 初回検査・診断・治療, その後の多回検査・評価・治療, 最終診断を含む。臨床MCでは、英語データセットの患者は平均5.11の臨床コースを受けており、中国語データセットの患者は3.42である。 LLMの性能を評価するために,患者,検査者,医師エージェントを含むマルチエージェント評価フレームワークを構築した。ベンチマークとフレームワークに基づいて、シングルターンの静的設定とマルチターンの動的設定という2つの実験的な設定を設計し、LLMの3つのカテゴリを評価します。 1) GPT5-mini のようなクローズドソース LLM 2) DeepSeek-V3.2 などのオープンソース LLM および 3)HuatuoGPT-o1のような医療用LLM。医療領域におけるLCMのパフォーマンスをよりよく理解し,医療分野への効果的な展開を支援することを目的としている。

関連論文リスト

EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [62.00431604976949]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文参考訳（メタデータ） (2025-05-29T16:14:34Z)
CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。このベンチマークの信頼性はいくつかの点で確認されている。
論文参考訳（メタデータ） (2024-10-04T15:15:36Z)
Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
CliBench: A Multifaceted and Multigranular Evaluation of Large Language Models for Clinical Decision Making [16.310913127940857]
我々はMIMIC IVデータセットから開発された新しいベンチマークであるCliBenchを紹介する。このベンチマークは、臨床診断におけるLSMの能力を包括的かつ現実的に評価する。臨床診断の熟練度を評価するため,先進LSMのゼロショット評価を行った。
論文参考訳（メタデータ） (2024-06-14T11:10:17Z)
Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文参考訳（メタデータ） (2024-04-25T15:51:06Z)
Does Biomedical Training Lead to Better Medical Performance? [7.341724934479004]
大規模言語モデル(LLM)は、患者のケア、診断、管理プロセスに大きく貢献することが期待されている。本研究では, バイオメディカルトレーニングが6つの実践的医療課題の文脈に及ぼす影響について検討した。
論文参考訳（メタデータ） (2024-04-05T12:51:37Z)
A dataset and benchmark for hospital course summarization with adapted large language models [4.091402760759184]
大規模言語モデル(LLM)は、現実世界のタスクを自動化する際、顕著な能力を示しているが、医療応用の能力は示されていない。臨床ノートと短い病院コースをカプセル化したMIMIC-IV-BHC(MIMIC-IV-BHC)を導入した。臨床ノートを入力として,3つのオープンソースLSMと2つの独自LSMに対して,プロンプトベース(文脈内学習)と微調整ベースの適応戦略を適用した。
論文参考訳（メタデータ） (2024-03-08T23:17:55Z)
A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。 3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文参考訳（メタデータ） (2024-02-17T08:04:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。