論文の概要: LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation
- arxiv url: http://arxiv.org/abs/2506.04078v1
- Date: Wed, 04 Jun 2025 15:43:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.425396
- Title: LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation
- Title(参考訳): LLMEval-Med : 医用LCMの現実的臨床ベンチマーク
- Authors: Ming Zhang, Yujiong Shen, Zelin Li, Huayu Sha, Binze Hu, Yuhui Wang, Chenhao Huang, Shichun Liu, Jingqi Tong, Changhao Jiang, Mingxu Chai, Zhiheng Xi, Shihan Dou, Tao Gui, Qi Zhang, Xuanjing Huang,
- Abstract要約: 医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
- 参考スコア(独自算出の注目度): 38.02853540388593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating large language models (LLMs) in medicine is crucial because medical applications require high accuracy with little room for error. Current medical benchmarks have three main types: medical exam-based, comprehensive medical, and specialized assessments. However, these benchmarks have limitations in question design (mostly multiple-choice), data sources (often not derived from real clinical scenarios), and evaluation methods (poor assessment of complex reasoning). To address these issues, we present LLMEval-Med, a new benchmark covering five core medical areas, including 2,996 questions created from real-world electronic health records and expert-designed clinical scenarios. We also design an automated evaluation pipeline, incorporating expert-developed checklists into our LLM-as-Judge framework. Furthermore, our methodology validates machine scoring through human-machine agreement analysis, dynamically refining checklists and prompts based on expert feedback to ensure reliability. We evaluate 13 LLMs across three categories (specialized medical models, open-source models, and closed-source models) on LLMEval-Med, providing valuable insights for the safe and effective deployment of LLMs in medical domains. The dataset is released in https://github.com/llmeval/LLMEval-Med.
- Abstract(参考訳): 医学における大規模言語モデル(LLM)の評価は非常に重要である。
現在の医療ベンチマークには、医学的検査ベース、総合的な医学的評価、専門的な評価の3つのタイプがある。
しかしながら、これらのベンチマークには、問題設計(主に複数選択)、データソース(多くの場合、実際の臨床シナリオから派生していない)、評価方法(複雑な推論の貧弱な評価)の制限がある。
これらの問題に対処するために、LLMEval-Medという5つの中核医療分野をカバーする新しいベンチマークを提案し、その中には、実際の電子健康記録から作成された2,996の質問と専門家が設計した臨床シナリオが含まれる。
LLM-as-Judgeフレームワークに専門家が開発したチェックリストを組み込んだ自動評価パイプラインも設計する。
さらに,本手法は,人間と機械の合意分析,チェックリストの動的精算,専門家のフィードバックに基づくプロンプトによる評価を行い,信頼性を確保する。
LLMEval-Medでは,3つのカテゴリ(特別化医療モデル,オープンソースモデル,クローズドソースモデル)にまたがる13のLLMを評価し,医療領域におけるLLMの安全かつ効果的な展開について貴重な知見を提供する。
データセットはhttps://github.com/llmeval/LLMEval-Medでリリースされている。
関連論文リスト
- Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。