論文の概要: PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments
- arxiv url: http://arxiv.org/abs/2605.02240v1
- Date: Mon, 04 May 2026 05:32:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.147064
- Title: PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments
- Title(参考訳): PhysicianBench:実世界のEHR環境におけるLDMエージェントの評価
- Authors: Ruoqi Liu, Imran Q. Mohiuddin, Austin J. Schoeffler, Kavita Renduchintala, Ashwin Nayak, Prasantha L. Vemu, Shivam C. Vedak, Kameron C. Black, John L. Havlik, Isaac Ogunmola, Stephen P. Ma, Roopa Dhatt, Jonathan H. Chen,
- Abstract要約: 既存の医療エージェントベンチマークは、主に静的な知識のリコール、単一ステップのアトミックアクション、環境に対する実行を検証せずにアクションインテントに焦点を当てている。
PhysicianBenchは、プライマリケアと医師の実際のケースから適応した100のロングホライゾンタスクで構成されている。
各タスクは構造化されたチェックポイント(ベンチマーク全体で合計670)に分解される。
最高のパフォーマンスモデルはわずか46%の成功率(pass@1)であり、オープンソースモデルは19%に達する。
- 参考スコア(独自算出の注目度): 5.310457397170786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce PhysicianBench, a benchmark for evaluating LLM agents on physician tasks grounded in real clinical setting within electronic health record (EHR) environments. Existing medical agent benchmarks primarily focus on static knowledge recall, single-step atomic actions, or action intent without verifiable execution against the environment. As a result, they fail to capture the long-horizon, composite workflows that characterize real clinical systems. PhysicianBench comprises 100 long-horizon tasks adapted from real consultation cases between primary care and subspecialty physicians, with each task independently reviewed by a separate panel of physicians. Tasks are instantiated in an EHR environment with real patient records and accessed through the same standard APIs used by commercial EHR vendors. Tasks span 21 specialties (e.g., cardiology, endocrinology, oncology, psychiatry) and diverse workflow types (e.g., diagnosis interpretation, medication prescribing, treatment planning), requiring an average of 27 tool calls per task. Solving each task requires retrieving data across encounters, reasoning over heterogeneous clinical information, executing consequential clinical actions, and producing clinical documentation. Each task is decomposed into structured checkpoints (670 in total across the benchmark) capturing distinct stages of completion graded by task-specific scripts with execution-grounded verification. Across 13 proprietary and open-source LLM agents, the best-performing model achieves only 46% success rate (pass@1), while open-source models reach at most 19%, revealing a substantial gap between current agent capabilities and the demands of real-world clinical workflows. PhysicianBench provides a realistic and execution-grounded benchmark for measuring progress toward autonomous clinical agents.
- Abstract(参考訳): EHR(Electronic Health Record)環境における臨床現場におけるLLMエージェントの評価のためのベンチマークであるPhysicianBenchを紹介する。
既存の医療エージェントベンチマークは、主に静的な知識のリコール、単一ステップのアトミックアクション、環境に対する実行を検証せずにアクションインテントに焦点を当てている。
その結果、彼らは実際の臨床システムを特徴付ける長期の複合ワークフローを捉えられなかった。
PhysicianBenchは、プライマリケアとサブスペシャリティの医師間の実際の相談から適応した100のロングホライゾンタスクで構成され、それぞれのタスクは独立した医師のパネルによって独立にレビューされる。
タスクは実際の患者の記録を持つEHR環境でインスタンス化され、商用のEHRベンダーが使用しているのと同じ標準APIを介してアクセスされます。
タスクは21の専門分野(例えば、心臓学、内分泌学、腫瘍学、精神医学)と多様なワークフロータイプ(例えば、診断解釈、薬物処方、治療計画など)にまたがる。
それぞれのタスクの解決には、遭遇点を越えてデータを検索し、異種の臨床情報を推論し、連続的な臨床行動を実行し、臨床文書を作成する必要がある。
各タスクは構造化されたチェックポイント(ベンチマーク全体で合計670)に分解され、実行基盤検証を伴うタスク固有のスクリプトによって評価された完了の異なるステージをキャプチャする。
13のプロプライエタリでオープンソースのLLMエージェントに対して、最高のパフォーマンスモデルは46%の成功率(pass@1)しか達成できない。
PhysicianBenchは、自律的な臨床エージェントへの進捗を測定するための、現実的で実行基盤のベンチマークを提供する。
関連論文リスト
- A Randomized Controlled Trial and Pilot of Scout: an LLM-Based EHR Search and Synthesis Platform [1.3680778971360474]
我々は、臨床医が自然言語を用いてEHRデータをクエリできるEHR検索合成プラットフォームであるScoutを開発した。
スカウトはタスク完了時間を37.6%削減し、作業負荷を著しく削減した。
スカウトは、EHRのみで完了したタスクに対する正確さ、完全性、および関連性を維持した。
論文 参考訳(メタデータ) (2026-03-07T22:28:53Z) - LiveClin: A Live Clinical Benchmark without Leakage [50.45415584327275]
LiveClinは、実際の臨床実践を近似するために設計されたライブベンチマークである。
本研究は,患者を臨床経過全体にわたる複雑なマルチモーダルな評価シナリオに転換する。
LiveClin上で26のモデルを評価すると、これらの実世界のシナリオの難しさが明らかとなり、最高性能のモデルではケース精度が35.7%に達した。
論文 参考訳(メタデータ) (2026-02-18T03:59:46Z) - Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - Enabling Doctor-Centric Medical AI with LLMs through Workflow-Aligned Tasks and Benchmarks [72.89088985703748]
大きな言語モデル(LLM)の台頭は、臨床ガイダンスを提供することで医療に変化をもたらしたが、患者への直接の展開は安全性のリスクをもたらす。
我々は,患者と直接対話するのではなく,経験豊富な医師と協力する臨床助手としてLLMを再配置することを提案する。
我々は、22の臨床的タスクと27の専門分野にわたる92,000のQ&Aインスタンスからなる大規模な中国の医療データセットであるDoctorFLANを構築した。
論文 参考訳(メタデータ) (2025-10-13T06:18:27Z) - EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [62.00431604976949]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。
我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。
私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文 参考訳(メタデータ) (2025-05-29T16:14:34Z) - ER-REASON: A Benchmark Dataset for LLM-Based Clinical Reasoning in the Emergency Room [6.910389029249664]
大規模言語モデル (LLMs) は, ライセンス試験に基づく質問応答タスクにおいて, 広範囲に評価されている。
ER-Reason(ER-Reason)は、救急室におけるLSMに基づく臨床推論と意思決定を評価するために設計されたベンチマークである。
論文 参考訳(メタデータ) (2025-05-28T22:43:44Z) - MedAgentBoard: Benchmarking Multi-Agent Collaboration with Conventional Methods for Diverse Medical Tasks [27.717720332927296]
我々はMedAgentBoardを紹介する。MedAgentBoardは、マルチエージェントコラボレーション、シングルLLM、および従来のアプローチの体系的評価のための総合的なベンチマークである。
MedAgentBoardには、医療(視覚)質問応答、レイサマリ生成、構造化電子健康記録(EHR)予測モデリング、臨床ワークフロー自動化の4つの多様な医療タスクカテゴリが含まれている。
マルチエージェントコラボレーションは特定のシナリオにおいてメリットを示すが、高度な単一LLMを一貫して上回るものではない。
論文 参考訳(メタデータ) (2025-05-18T11:28:17Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice with Interactive Sequence [68.05876437208505]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。