論文の概要: LiveMedBench: A Contamination-Free Medical Benchmark for LLMs with Automated Rubric Evaluation
- arxiv url: http://arxiv.org/abs/2602.10367v1
- Date: Tue, 10 Feb 2026 23:38:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.340314
- Title: LiveMedBench: A Contamination-Free Medical Benchmark for LLMs with Automated Rubric Evaluation
- Title(参考訳): LiveMedBench: ルブリック自動評価によるLCMの汚染のない医療ベンチマーク
- Authors: Zhiling Yan, Dingjie Song, Zhe Fang, Yisheng Ji, Xiang Li, Quanzheng Li, Lichao Sun,
- Abstract要約: LiveMedBenchは、オンライン医療コミュニティからリアルな臨床ケースを抽出する、継続的に更新されたベンチマークである。
LiveMedBenchは、38の専門医と複数の言語にまたがる2,756の現実世界のケースで構成され、16,702のユニークな評価基準と組み合わせている。
大規模な評価では、最高のパフォーマンスモデルでさえ39.2%しか達成せず、84%のモデルがカット後のケースで性能劣化を示す。
- 参考スコア(独自算出の注目度): 22.211535340726073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deployment of Large Language Models (LLMs) in high-stakes clinical settings demands rigorous and reliable evaluation. However, existing medical benchmarks remain static, suffering from two critical limitations: (1) data contamination, where test sets inadvertently leak into training corpora, leading to inflated performance estimates; and (2) temporal misalignment, failing to capture the rapid evolution of medical knowledge. Furthermore, current evaluation metrics for open-ended clinical reasoning often rely on either shallow lexical overlap (e.g., ROUGE) or subjective LLM-as-a-Judge scoring, both inadequate for verifying clinical correctness. To bridge these gaps, we introduce LiveMedBench, a continuously updated, contamination-free, and rubric-based benchmark that weekly harvests real-world clinical cases from online medical communities, ensuring strict temporal separation from model training data. We propose a Multi-Agent Clinical Curation Framework that filters raw data noise and validates clinical integrity against evidence-based medical principles. For evaluation, we develop an Automated Rubric-based Evaluation Framework that decomposes physician responses into granular, case-specific criteria, achieving substantially stronger alignment with expert physicians than LLM-as-a-Judge. To date, LiveMedBench comprises 2,756 real-world cases spanning 38 medical specialties and multiple languages, paired with 16,702 unique evaluation criteria. Extensive evaluation of 38 LLMs reveals that even the best-performing model achieves only 39.2%, and 84% of models exhibit performance degradation on post-cutoff cases, confirming pervasive data contamination risks. Error analysis further identifies contextual application-not factual knowledge-as the dominant bottleneck, with 35-48% of failures stemming from the inability to tailor medical knowledge to patient-specific constraints.
- Abstract(参考訳): 大規模言語モデル(LLM)の高度臨床環境への展開は、厳密で信頼性の高い評価を必要とする。
しかし、既存の医療ベンチマークは、(1) テストセットが意図せず学習コーパスに漏れるデータ汚染、(2) 医療知識の急速な進化を捉えない時間的ミスアライメントの2つの重大な限界に悩まされている。
さらに, オープンエンド臨床推論における評価基準は, 浅い語彙重なり(例:ROUGE)か主観的LCM-as-a-Judgeスコア(例:ROUGE)のどちらかに依存しており, いずれも臨床的正当性を検証するには不十分である。
このギャップを埋めるために、LiveMedBenchを紹介します。LiveMedBenchは、継続的に更新され、汚染のない、ルーブリックベースのベンチマークで、オンライン医療コミュニティからリアルな臨床ケースを毎週収穫し、モデルトレーニングデータから厳密な時間的分離を確保します。
生データノイズをフィルタし,エビデンスに基づく医療原則に対する臨床の整合性を検証する多段階臨床キュレーションフレームワークを提案する。
評価のために, 医師の回答を, LLM-as-a-Judgeに比較して, 専門医との整合性を著しく高め, 粒度, ケース特異的な基準に分解する自動ルーブリックベース評価フレームワークを開発した。
現在、LiveMedBenchは38の専門用語と複数の言語にまたがる現実世界の2,756のケースで構成されており、16,702のユニークな評価基準と組み合わせている。
38 LLMの大規模評価では、最高の性能モデルでさえ39.2%しか達成せず、84%のモデルがカット後のケースで性能低下を示し、広範囲なデータ汚染のリスクを確認している。
エラー分析は、コンテキスト的応用ではなく事実的知識を主要なボトルネックとして認識し、35~48%の失敗は、医療知識を患者固有の制約に合わせることができないことに起因する。
関連論文リスト
- MediEval: A Unified Medical Benchmark for Patient-Contextual and Knowledge-Grounded Reasoning in LLMs [7.2159153945746795]
既存の評価は、単独で実際の医療知識をテストするか、患者レベルの推論を正当性を検証せずに評価し、重大なギャップを残している。
我々はMIMIC-IV電子健康記録とUMLSやその他のバイオメディカル語彙から構築された統一知識ベースを結びつけるベンチマークであるMediEvalを紹介する。
MediEvalは、実際の患者コンテキスト内で、さまざまな事実的および反ファクト的医療声明を生成し、4つのクアドラント・フレームワーク間で体系的な評価を可能にする。
論文 参考訳(メタデータ) (2025-12-23T22:52:24Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - From Scores to Steps: Diagnosing and Improving LLM Performance in Evidence-Based Medical Calculations [45.414878840652115]
大規模言語モデル(LLM)は医療ベンチマークで有望な性能を示した。
しかし、医学的な計算を行う能力は未熟であり、評価も不十分である。
本研究は,臨床信頼性を重視した医療計算評価を再考する。
論文 参考訳(メタデータ) (2025-09-20T09:10:26Z) - A Novel Evaluation Benchmark for Medical LLMs: Illuminating Safety and Effectiveness in Clinical Domains [15.73821689524201]
大言語モデル (LLMs) は臨床決定支援において有望であるが、安全性評価と有効性検証において大きな課題に直面している。
臨床専門家のコンセンサスに基づく多次元フレームワークであるCSEDBを開発した。
13名の専門医が, 現実のシナリオをシミュレートする26の臨床部門にまたがって, 2,069件のオープンエンドQ&A項目を作成した。
論文 参考訳(メタデータ) (2025-07-31T12:10:00Z) - LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - GEMA-Score: Granular Explainable Multi-Agent Scoring Framework for Radiology Report Evaluation [7.838068874909676]
Granular Explainable Multi-Agent Score (GEMA-Score)は、大規模言語モデルに基づくマルチエージェントワークフローを通じて、客観的および主観的評価を行う。
GEMA-Scoreは、公開データセット上での人間の専門家評価と最も高い相関を達成している。
論文 参考訳(メタデータ) (2025-03-07T11:42:22Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Fact or Guesswork? Evaluating Large Language Models' Medical Knowledge with Structured One-Hop Judgments [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし、適用する能力は、まだ探索されていない。
標準化された語彙と知識グラフの包括的なリポジトリであるUMLS(Unified Medical Language System)から派生したデータセットであるMKJ(Messical Knowledge Judgment dataset)を紹介する。
バイナリ分類フレームワークを通じて、MKJは、簡潔なワンホップ文の妥当性を評価することによって、LCMが基本的な医学的事実を把握できることを評価する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。