Fugu-MT 論文翻訳(概要): ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels

論文の概要: ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels

arxiv url: http://arxiv.org/abs/2603.02097v2
Date: Tue, 03 Mar 2026 04:45:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-04 14:54:12.637081
Title: ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels
Title（参考訳）: ClinConsensus:中国医学LLMの難易度評価のためのコンセンサスに基づくベンチマーク
Authors: Xiang Zheng, Han Li, Wenjie Luo, Weiqi Zhai, Yiyuan Li, Chuanmiao Yan, Tianyi Tang, Yubo Ma, Kexin Yang, Dayiheng Liu, Hu Wei, Bing Zhao,
Abstract要約: 大規模言語モデル(LLM)は、病気の予防、臨床的意思決定、長期ケアにまたがる約束を示す健康管理にますます応用されている。 ClinConsensusは、臨床専門家がキュレートし、検証し、品質を制御した中国の医療ベンチマークである。 ClinConsensusは、予防と介入から長期フォローアップまで、ケアの全期間にわたる2500件のオープンエンドケースで構成されており、36の専門医、12の共通臨床タスクタイプ、そして徐々に複雑さのレベルが増大している。
参考スコア（独自算出の注目度）: 39.33170904610862
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are increasingly applied to health management, showing promise across disease prevention, clinical decision-making, and long-term care. However, existing medical benchmarks remain largely static and task-isolated, failing to capture the openness, longitudinal structure, and safety-critical complexity of real-world clinical workflows. We introduce ClinConsensus, a Chinese medical benchmark curated, validated, and quality-controlled by clinical experts. ClinConsensus comprises 2500 open-ended cases spanning the full continuum of care--from prevention and intervention to long-term follow-up--covering 36 medical specialties, 12 common clinical task types, and progressively increasing levels of complexity. To enable reliable evaluation of such complex scenarios, we adopt a rubric-based grading protocol and propose the Clinically Applicable Consistency Score (CACS@k). We further introduce a dual-judge evaluation framework, combining a high-capability LLM-as-judge with a distilled, locally deployable judge model trained via supervised fine-tuning, enabling scalable and reproducible evaluation aligned with physician judgment. Using ClinConsensus, we conduct a comprehensive assessment of several leading LLMs and reveal substantial heterogeneity across task themes, care stages, and medical specialties. While top-performing models achieve comparable overall scores, they differ markedly in reasoning, evidence use, and longitudinal follow-up capabilities, and clinically actionable treatment planning remains a key bottleneck. We release ClinConsensus as an extensible benchmark to support the development and evaluation of medical LLMs that are robust, clinically grounded, and ready for real-world deployment.
Abstract（参考訳）: 大規模言語モデル(LLM)は、病気の予防、臨床的意思決定、長期ケアにまたがる約束を示す健康管理にますます応用されている。しかし、既存の医療ベンチマークは主に静的でタスク分離されており、実際の臨床ワークフローのオープン性、縦長構造、安全性に批判的な複雑さを捉えていない。 ClinConsensusは、臨床専門家がキュレートし、検証し、品質を制御した中国の医療ベンチマークである。 ClinConsensusは、予防と介入から長期フォローアップまで、ケアの全期間にわたる2500件のオープンエンドケースで構成されており、36の専門医、12の共通臨床タスクタイプ、そして徐々に複雑さのレベルが増大している。このような複雑なシナリオを信頼性良く評価するために,ルーブリックに基づくグレーディングプロトコルを採用し,臨床応用可能な一貫性スコア(CACS@k)を提案する。さらに、高機能LCM-as-judgeと、教師付き微調整により訓練された蒸留された局所展開可能な判断モデルを組み合わせることで、医師の判断に適合したスケーラブルで再現可能な評価を可能にする。 ClinConsensusを用いて、いくつかの主要なLCMの包括的評価を行い、タスクテーマ、ケアステージ、医療専門分野における相当な異質性を明らかにする。トップパフォーマンスモデルは総得点に匹敵するものの、推論、エビデンス使用、縦続追跡能力は著しく異なり、臨床的に実行可能な治療計画が依然として重要なボトルネックとなっている。我々はClinConsensusを拡張可能なベンチマークとしてリリースし、ロバストで臨床基盤があり、実世界展開の準備が整った医療用LCMの開発と評価を支援する。

関連論文リスト

MedConsultBench: A Full-Cycle, Fine-Grained, Process-Aware Benchmark for Medical Consultation Agents [10.109613967215447]
MedConsultBenchは,オンラインコンサルテーションサイクルの完全な評価を目的とした総合的なフレームワークである。本手法では,臨床情報取得をサブターンレベルで追跡するために,AIU(Atomic Information Units)を導入している。オンラインコンサルティングに固有の不明瞭さと曖昧さに対処することで、このベンチマークは不確実性を認識しながら簡潔な調査を評価する。
論文参考訳（メタデータ） (2026-01-19T02:18:10Z)
Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models [48.95516224614331]
MedGaze-Benchは、臨床医の視線を認知的カーソルとして活用し、手術、緊急シミュレーション、診断解釈における意図的理解を評価する最初のベンチマークである。本ベンチマークでは,解剖学的構造の視覚的均一性,臨床における時間・因果依存性の厳格化,安全プロトコルへの暗黙の順守という3つの基本的な課題に対処する。
論文参考訳（メタデータ） (2026-01-11T02:20:40Z)
ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文参考訳（メタデータ） (2025-12-29T12:58:58Z)
CP-Env: Evaluating Large Language Models on Clinical Pathways in a Controllable Hospital Environment [29.48544328813161]
本研究は,大規模言語モデル(LLM)をエンド・ツー・エンドの医療経路にわたって評価するために設計された,コントロール可能なエージェント型病院環境であるCP-Envを紹介する。実際の病院適応的な医療の流れに続き、分枝型長期タスク実行を可能にします。その結果、ほとんどのモデルは経路幻覚に悩まされ、複雑さを示し、重要な診断の詳細を失うことが判明した。
論文参考訳（メタデータ） (2025-12-11T01:54:55Z)
Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文参考訳（メタデータ） (2025-10-11T16:24:35Z)
MedGUIDE: Benchmarking Clinical Decision-Making in Large Language Models [10.46932473088646]
MedGUIDEは,Large Language Models (LLMs) を評価するための新しいベンチマークであり,ガイドラインに一貫性のある臨床診断を行う能力について紹介する。 MedGUIDEは17種類の癌にまたがる55のNCCN決定木から構築されている。本研究では,10の臨床的,言語学的基準において,専門家ラベル付き報酬モデルとLLM-as-a-judgeアンサンブルを組み合わせた2段階の品質選択プロセスを適用し,高品質なサンプル7,747を選定した。
論文参考訳（メタデータ） (2025-05-16T18:21:52Z)
Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文参考訳（メタデータ） (2025-04-21T16:51:11Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Hierarchical Divide-and-Conquer for Fine-Grained Alignment in LLM-Based Medical Evaluation [31.061600616994145]
HDCEvalは、専門医とのコラボレーションによって開発された、きめ細かい医療評価ガイドラインに基づいて構築されている。このフレームワークは複雑な評価タスクを専門的なサブタスクに分解し、それぞれがエキスパートモデルによって評価される。この階層的なアプローチは、評価の各側面が専門家の精度で扱われることを保証する。
論文参考訳（メタデータ） (2025-01-12T07:30:49Z)
Towards Automatic Evaluation for LLMs' Clinical Capabilities: Metric, Data, and Algorithm [15.627870862369784]
大規模言語モデル (LLMs) は, 臨床診断の効率向上への関心が高まっている。臨床サービス提供におけるLCMの能力を評価するための自動評価パラダイムを提案する。
論文参考訳（メタデータ） (2024-03-25T06:17:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。