論文の概要: EHRBench: An Automated and Reliable EHR-based Benchmark for Clinical Decision Making with LLMs
- arxiv url: http://arxiv.org/abs/2605.30637v1
- Date: Thu, 28 May 2026 22:38:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.27476
- Title: EHRBench: An Automated and Reliable EHR-based Benchmark for Clinical Decision Making with LLMs
- Title(参考訳): EHRBench: LLMを用いた臨床診断のための自動化された信頼性の高いEHRベースのベンチマーク
- Authors: Yuzhang Xie, Keqi Han, Yunpeng Xiao, Hejie Cui, Guanchen Wu, Ziyang Zhang, Kai Shu, Jiaying Lu, Xiao Hu, Carl Yang,
- Abstract要約: 臨床意思決定 (CDM) は、臨床医が診断を推測し、治療を選択し、不完全な証拠の下で将来の健康結果を予測する、現実的な臨床の中心である。
LLMモデルは、強力な言語能力、幅広い生物医学的知識、効率性のために、これらの決定をサポートするためにますます使われています。
LLMの実際の臨床決定タスクに対する信頼性は、まだ十分に理解されていない。
- 参考スコア(独自算出の注目度): 51.129595320595094
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Clinical decision-making (CDM) is central to real-world clinical workflows, where clinicians infer diagnoses, select treatments, or anticipate future health outcomes under incomplete evidence. LLMs are increasingly used to support these decisions due to strong language capabilities, broad biomedical knowledge, and efficiency, yet the reliability of LLMs on real-world clinical decision tasks remains insufficiently understood. To evaluate CDM models, especially LLM-based models, an ideal and practical medical decision benchmark should be constructed via an automated yet reliable pipeline to ensure both scale and quality. Moreover, the grounding of a CDM benchmark in real patient EHRs can better support evaluation on practical CDM tasks that require substantive biomedical knowledge and clinical inference. To fill the gaps, we introduce EHRBench, an automated and reliable EHR-grounded benchmark for evaluating LLM-based clinical decision-making at scale. To ensure scalability and reliability, EHRBench is constructed through an EHR-LLM-KB(knowledge-base) interaction pipeline. For efficiency, we use a specialized LLM to automatically convert encounter-level EHR trajectories into structured templates and deterministically instantiate the templates into QA items. In parallel, we apply systematic KB-based verification and enrichment to filter hallucinated or ambiguous relations and to improve reliability. Using this pipeline, we construct nearly 1M (960,067) QA items spanning three core inference-required clinical decision tasks: diagnosis, treatment, and prognosis. We benchmark more than 30 representative LLMs on EHRBench and provide detailed analyses of performance and robustness. The results show consistent capability trends across settings, further validating the reliability of EHRBench and highlighting actionable gaps toward clinically reliable LLM systems.
- Abstract(参考訳): 臨床意思決定 (CDM) は実際の臨床ワークフローの中心であり、臨床医は診断、治療の選択、あるいは不完全な証拠の下で将来の健康結果を予測する。
LLMは、言語能力、幅広い生物医学的知識、効率性により、これらの決定を支援するためにますます利用されているが、現実の臨床的決定タスクに対するLSMの信頼性は、まだ十分に理解されていない。
CDMモデル、特にLCMベースのモデルを評価するためには、スケールと品質の両方を確保するために、自動化されながら信頼性の高いパイプラインを通じて理想的で実用的な医療判断ベンチマークを構築する必要がある。
さらに、実際の患者EHRにおけるCDMベンチマークの基盤は、実質的なバイオメディカル知識と臨床推測を必要とする実践的なCDMタスクの評価をより支援することができる。
このギャップを埋めるために,LEMに基づく臨床意思決定を大規模に評価するための自動かつ信頼性の高いEHRグラウンドベンチマークであるEHRBenchを紹介する。
スケーラビリティと信頼性を確保するため、EHRBenchはEHR-LLM-KB(knowledge-base)インタラクションパイプラインを通じて構築される。
効率性のために、特殊LLMを用いて、遭遇レベルのERHトラジェクトリを構造化テンプレートに自動的に変換し、テンプレートをQA項目に決定的にインスタンス化する。
並列に、系統的なKBベースの検証と強化を適用し、幻覚的あるいは曖昧な関係をフィルタリングし、信頼性を向上させる。
このパイプラインを用いて, 診断, 治療, 予後の3つの中核的推論条件にまたがる約100M (960,067) のQA項目を構築した。
EHRBench上で30以上の代表LSMをベンチマークし、性能とロバスト性について詳細に分析する。
以上の結果から, EHRBench の信頼性が向上し, 臨床に信頼性の高い LLM システムに対する有効性ギャップが強調された。
関連論文リスト
- Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - MedGUIDE: Benchmarking Clinical Decision-Making in Large Language Models [10.46932473088646]
MedGUIDEは,Large Language Models (LLMs) を評価するための新しいベンチマークであり,ガイドラインに一貫性のある臨床診断を行う能力について紹介する。
MedGUIDEは17種類の癌にまたがる55のNCCN決定木から構築されている。
本研究では,10の臨床的,言語学的基準において,専門家ラベル付き報酬モデルとLLM-as-a-judgeアンサンブルを組み合わせた2段階の品質選択プロセスを適用し,高品質なサンプル7,747を選定した。
論文 参考訳(メタデータ) (2025-05-16T18:21:52Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - CliBench: A Multifaceted and Multigranular Evaluation of Large Language Models for Clinical Decision Making [16.310913127940857]
我々はMIMIC IVデータセットから開発された新しいベンチマークであるCliBenchを紹介する。
このベンチマークは、臨床診断におけるLSMの能力を包括的かつ現実的に評価する。
臨床診断の熟練度を評価するため,先進LSMのゼロショット評価を行った。
論文 参考訳(メタデータ) (2024-06-14T11:10:17Z) - Towards Automatic Evaluation for LLMs' Clinical Capabilities: Metric, Data, and Algorithm [15.627870862369784]
大規模言語モデル (LLMs) は, 臨床診断の効率向上への関心が高まっている。
臨床サービス提供におけるLCMの能力を評価するための自動評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-25T06:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。