論文の概要: MLB: A Scenario-Driven Benchmark for Evaluating Large Language Models in Clinical Applications
- arxiv url: http://arxiv.org/abs/2601.06193v1
- Date: Thu, 08 Jan 2026 02:41:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.663349
- Title: MLB: A Scenario-Driven Benchmark for Evaluating Large Language Models in Clinical Applications
- Title(参考訳): MLB: 臨床応用における大規模言語モデル評価のためのシナリオ駆動ベンチマーク
- Authors: Qing He, Dongsheng Bi, Jianrong Lu, Minghui Yang, Zixiao Chen, Jiacheng Lu, Jing Chen, Nannan Du, Xiao Cu, Sijing Wu, Peng Xiang, Yinyin Hu, Yi Guo, Chunpu Li, Shaoyang Li, Zhuo Dong, Ming Jiang, Shuai Guo, Liyun Feng, Jin Peng, Jian Wang, Jinjie Gu, Junwei Liu,
- Abstract要約: 基礎知識とシナリオベース推論の両方に基づいて,LLM(Large Language Models)を評価するベンチマークである医療用LLMベンチマークMLBを紹介する。
MLBは、医療知識(MedKQA)、安全と倫理(MedSE)、医療記録理解(MedRU)、スマートサービス(SmartServ)、スマートヘルスケア(SmartCare)の5つのコア次元で構成されている。
その設計は、300人の医師が参加する厳格なキュレーションパイプラインを特徴としている。また、専門家アノテーションに基づいて訓練されたSFT(Supervised Fine-Tuning)を用いた特別審査モデルを中心に、スケーラブルな評価手法を提供する。
- 参考スコア(独自算出の注目度): 27.73095565539546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of Large Language Models (LLMs) presents transformative potential for healthcare, yet practical deployment is hindered by the absence of frameworks that assess real-world clinical utility. Existing benchmarks test static knowledge, failing to capture the dynamic, application-oriented capabilities required in clinical practice. To bridge this gap, we introduce a Medical LLM Benchmark MLB, a comprehensive benchmark evaluating LLMs on both foundational knowledge and scenario-based reasoning. MLB is structured around five core dimensions: Medical Knowledge (MedKQA), Safety and Ethics (MedSE), Medical Record Understanding (MedRU), Smart Services (SmartServ), and Smart Healthcare (SmartCare). The benchmark integrates 22 datasets (17 newly curated) from diverse Chinese clinical sources, covering 64 clinical specialties. Its design features a rigorous curation pipeline involving 300 licensed physicians. Besides, we provide a scalable evaluation methodology, centered on a specialized judge model trained via Supervised Fine-Tuning (SFT) on expert annotations. Our comprehensive evaluation of 10 leading models reveals a critical translational gap: while the top-ranked model, Kimi-K2-Instruct (77.3% accuracy overall), excels in structured tasks like information extraction (87.8% accuracy in MedRU), performance plummets in patient-facing scenarios (61.3% in SmartServ). Moreover, the exceptional safety score (90.6% in MedSE) of the much smaller Baichuan-M2-32B highlights that targeted training is equally critical. Our specialized judge model, trained via SFT on a 19k expert-annotated medical dataset, achieves 92.1% accuracy, an F1-score of 94.37%, and a Cohen's Kappa of 81.3% for human-AI consistency, validating a reproducible and expert-aligned evaluation protocol. MLB thus provides a rigorous framework to guide the development of clinically viable LLMs.
- Abstract(参考訳): LLM(Large Language Models)の普及は、医療に変革をもたらす可能性があるが、現実の臨床的有用性を評価するフレームワークが存在しないために、実践的な展開が妨げられている。
既存のベンチマークは静的な知識をテストし、臨床実践に必要な動的でアプリケーション指向の能力を捉えていない。
このギャップを埋めるために、基礎知識とシナリオベースの推論の両方に基づいてLSMを評価する総合ベンチマークであるMedical LLM Benchmark MLBを導入する。
MLBは、医療知識(MedKQA)、安全と倫理(MedSE)、医療記録理解(MedRU)、スマートサービス(SmartServ)、スマートヘルスケア(SmartCare)の5つのコア次元で構成されている。
このベンチマークでは、中国のさまざまな臨床ソースから22のデータセット(新たにキュレーションされた)を統合し、64の臨床専門分野をカバーしている。
デザインは300人の医師が参加する厳格なキュレーション・パイプラインを特徴としている。
さらに,専門家のアノテーションに基づいてSFT(Supervised Fine-Tuning)によって訓練された特別審査モデルを中心に,スケーラブルな評価手法を提供する。
トップランクモデルであるKimi-K2-Instruct(全体の77.3%の精度)は、情報抽出(MedRUの87.8%の精度)、患者が直面するシナリオのパフォーマンス低下(SmartServの61.3%)といった構造化タスクに優れています。
さらに、非常に小さなバイチュアンM2-32Bの例外的安全性スコア(MedSEの90.6%)は、標的訓練が同様に重要であることを強調している。
SFTによる19kの専門家による医療データセットのトレーニングにより,92.1%の精度,94.37%のF1スコア,81.3%のAI一貫性を備えたCohen's Kappaを実現し,再現性と専門家による評価プロトコルの検証を行った。
MLBは、臨床的に実行可能なLLMの開発を導くための厳格な枠組みを提供する。
関連論文リスト
- Generalist Foundation Models Are Not Clinical Enough for Hospital Operations [29.539795338917983]
我々は、NYU Langone HealthのEHRsと627Bのトークンから80Bのクリニカルトークンを混合した専用コーパスで事前訓練されたモデル群であるLang1を紹介する。
実世界の環境でLang1を厳格に評価するために、668,331 EHRの指標であるRealistic Medical Evaluation (ReMedE)を開発した。
ラング1-1Bは70倍、0ショットモデルが671倍、AUROCが3.64%-6.75%、1.66%-23.6%向上した。
論文 参考訳(メタデータ) (2025-11-17T18:52:22Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - A Novel Evaluation Benchmark for Medical LLMs: Illuminating Safety and Effectiveness in Clinical Domains [15.73821689524201]
大言語モデル (LLMs) は臨床決定支援において有望であるが、安全性評価と有効性検証において大きな課題に直面している。
臨床専門家のコンセンサスに基づく多次元フレームワークであるCSEDBを開発した。
13名の専門医が, 現実のシナリオをシミュレートする26の臨床部門にまたがって, 2,069件のオープンエンドQ&A項目を作成した。
論文 参考訳(メタデータ) (2025-07-31T12:10:00Z) - LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。
これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。
MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T22:55:49Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。