論文の概要: ER-REASON: A Benchmark Dataset for LLM-Based Clinical Reasoning in the Emergency Room
- arxiv url: http://arxiv.org/abs/2505.22919v2
- Date: Fri, 30 May 2025 18:23:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 11:30:18.412193
- Title: ER-REASON: A Benchmark Dataset for LLM-Based Clinical Reasoning in the Emergency Room
- Title(参考訳): ER-REASON:救急室におけるLCMベースの臨床推論のためのベンチマークデータセット
- Authors: Nikita Mehandru, Niloufar Golchini, David Bamman, Travis Zack, Melanie F. Molina, Ahmed Alaa,
- Abstract要約: 大規模言語モデル (LLMs) は, ライセンス試験に基づく質問応答タスクにおいて, 広範囲に評価されている。
ER-Reason(ER-Reason)は、救急室におけるLSMに基づく臨床推論と意思決定を評価するために設計されたベンチマークである。
- 参考スコア(独自算出の注目度): 6.910389029249664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have been extensively evaluated on medical question answering tasks based on licensing exams. However, real-world evaluations often depend on costly human annotators, and existing benchmarks tend to focus on isolated tasks that rarely capture the clinical reasoning or full workflow underlying medical decisions. In this paper, we introduce ER-Reason, a benchmark designed to evaluate LLM-based clinical reasoning and decision-making in the emergency room (ER)--a high-stakes setting where clinicians make rapid, consequential decisions across diverse patient presentations and medical specialties under time pressure. ER-Reason includes data from 3,984 patients, encompassing 25,174 de-identified longitudinal clinical notes spanning discharge summaries, progress notes, history and physical exams, consults, echocardiography reports, imaging notes, and ER provider documentation. The benchmark includes evaluation tasks that span key stages of the ER workflow: triage intake, initial assessment, treatment selection, disposition planning, and final diagnosis--each structured to reflect core clinical reasoning processes such as differential diagnosis via rule-out reasoning. We also collected 72 full physician-authored rationales explaining reasoning processes that mimic the teaching process used in residency training, and are typically absent from ER documentation. Evaluations of state-of-the-art LLMs on ER-Reason reveal a gap between LLM-generated and clinician-authored clinical reasoning for ER decisions, highlighting the need for future research to bridge this divide.
- Abstract(参考訳): 大規模言語モデル (LLMs) は, ライセンス試験に基づく質問応答タスクにおいて, 広範囲に評価されている。
しかし、実世界の評価は費用がかかるアノテータに依存することが多く、既存のベンチマークでは、臨床理由付けや医療上の決定の根底にあるワークフローを完全に捉えることは滅多にない、孤立したタスクに焦点をあてる傾向にある。
本稿では,ER-Reasonについて紹介する。ER-Reason,ER-Reason,ER-Reason,ER-Reason,ER-Reason,ER-Reason,ER-Reason,ER-Reason,ER-Reason,ER-Reason。
ER-Reasonは3,984人の患者からのデータを含み、退院サマリー、進歩ノート、履歴と身体検査、コンサルティング、心エコー、画像診断、ERプロバイダの文書にまたがる25,174人の未確認の慢性臨床記録を含んでいる。
このベンチマークには、トリアージ摂取、初期評価、治療選択、配置計画、最終診断など、ERワークフローの重要な段階にまたがる評価タスクが含まれている。
また,在留訓練で使用される指導過程を模倣する推論過程を解説した72の完全医師論文を収集し,典型的にはER文書を欠いた。
ER-Reason における最先端 LLM の評価は、この分割を橋渡しする将来の研究の必要性を浮き彫りにした。
関連論文リスト
- MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports [49.00805568780791]
MedCaseReasoningはLarge Language Models(LLM)を評価するための最初のオープンアクセスデータセットである。
データセットには14,489の診断的質問・回答ケースが含まれており、それぞれに詳細な推論文がペアリングされている。
我々は,MedCaseReasoning上での最先端の推論LPMを評価し,診断と推論に重大な欠点を見出した。
論文 参考訳(メタデータ) (2025-05-16T22:34:36Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - DiReCT: Diagnostic Reasoning for Clinical Notes via Large Language Models [32.85606857702375]
本研究では,人間医師と比較して,大規模言語モデル(LLM)の推論能力と解釈可能性を評価することを目的とする。
臨床注記用診断推論データセット(DiReCT)は、511の臨床注記を含む。
論文 参考訳(メタデータ) (2024-08-04T05:15:02Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - EHRNoteQA: An LLM Benchmark for Real-World Clinical Practice Using Discharge Summaries [9.031182965159976]
大規模言語モデル(LLM)は、大規模で複雑なデータを効率的に分析する可能性を示している。
我々は,MIMIC-IV EHR上に構築された新しいベンチマークであるEHRNoteQAを紹介した。
EHRNoteQAには、複数の放電サマリーにまたがる情報を必要とし、実際の臨床検査の複雑さと多様性を反映した8つの多様なトピックをカバーする質問が含まれている。
論文 参考訳(メタデータ) (2024-02-25T09:41:50Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。