論文の概要: Evaluating Large Language Models in Dynamic Clinical Decision-Making with Standardized Patient Cases
- arxiv url: http://arxiv.org/abs/2606.05112v1
- Date: Wed, 03 Jun 2026 17:17:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.921117
- Title: Evaluating Large Language Models in Dynamic Clinical Decision-Making with Standardized Patient Cases
- Title(参考訳): 動的臨床診断における大規模言語モデルの評価 : 標準化症例による検討
- Authors: Cheng Liang, Pengcheng Qiu, Ya Zhang, Yanfeng Wang, Chaoyi Wu, Weidi Xie,
- Abstract要約: MedSP1000 (MedSP1000) は、SP由来の臨床エージェント評価のための対話型ベンチマークである。
ピアレビューされたSPの授業ケースを、定義されたSPケーススクリプト、臨床環境コンテキスト、人為的な構造化ルーブリックで実行可能なシナリオに変換する。
MedSP1000を多種多様な汎用および医療用LLMに適用すると、静的ベンチマークの性能がそのような教育シナリオに確実に変換されないことが分かる。
- 参考スコア(独自算出の注目度): 71.12461204050985
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly proposed as clinical agents, yet static, single-turn benchmarks cannot capture how a model dynamically delivers care across an encounter: gathering information, planning treatment, and adapting longitudinal management across successive patient states. Medical education has long addressed an analogous challenge through standardized patients (SPs): trained actors who consistently portray clinical cases, enabling realistic practice and objective, scripted assessment. Here we introduce MedSP1000, an SP-derived interactive benchmark for clinical-agent evaluation, including 1,638 SP cases with 24,602 trajectory-level peer-reviewed rubrics. MedSP1000 converts peer-reviewed SP teaching cases into executable scenarios with defined SP case scripts, clinical environment contexts, and human-validated structured rubric. In each simulation evaluation run, a clinical agent interacts in closed loop with a patient agent and an environment controller, and its behaviour is scored throughout the encounter against expert criteria specified in the original materials. Applying MedSP1000 to a range of general-purpose and medically specialized LLMs, we find that performance on static benchmarks does not reliably translate to such educational scenarios. The best-performing model, GPT-5.5, completes only 60.4% of expert-defined rubric items, whereas the strongest medically specialized model reaches 40.0%; increasing test-time compute produces no measurable gain. These results suggest that current LLMs, including agentic systems tuned for medicine, are not yet reliable enough to be safely integrated into actual clinical practice. More broadly, MedSP1000 shows how process-level, SP-style evaluation can reveal clinically relevant failure modes that single-turn benchmarks miss.
- Abstract(参考訳): 大規模言語モデル(LLM)は、臨床エージェントとしてますます提案されているが、静的なシングルターンベンチマークでは、モデルが遭遇する間を動的にケアする方法を捉えることはできない。
医学教育は長い間、標準化された患者(SP)を通して類似した課題に対処してきた。
MedSP1000は,1,638例のSP患者と24,602例のピアレビュー付きルーリックを含む,臨床エージェント評価のための対話型ベンチマークである。
MedSP1000は、ピアレビューされたSPのケースを、定義されたSPケーススクリプト、臨床環境コンテキスト、人為的な構造化ルーリックで実行可能なシナリオに変換する。
各シミュレーション評価実行において、臨床エージェントは、患者エージェントと環境コントローラとクローズドループで相互作用し、その動作は、原材料で特定された専門家基準に対する遭遇を通してスコアされる。
MedSP1000を多種多様な汎用および医療用LLMに適用すると、静的ベンチマークの性能がそのような教育シナリオに確実に変換されないことが分かる。
最高のパフォーマンスモデルであるGPT-5.5は、専門家が定義したルーブリックアイテムの60.4%しか完成していないが、最強の医療専門モデルであるGPT-5.5は40.0%に達する。
これらの結果から, 薬剤系を含む現在のLSMは, 実際の臨床実践に安全に組み入れられるほど信頼性が低いことが示唆された。
さらに広く、MedSP1000は、プロセスレベルのSPスタイルの評価が、単ターンベンチマークが見逃す臨床的に関連する障害モードを明らかにする方法を示している。
関連論文リスト
- Agentifying Patient Dynamics within LLMs through Interacting with Clinical World Model [57.78184285979881]
敗血症治療推奨のための世界モデル拡張LDMエージェントであるSepsisAgentを紹介する。
SepsisAgentは、学習された臨床世界モデルを使用して、候補の流体圧薬の介入下での患者の反応をシミュレートする。
論文 参考訳(メタデータ) (2026-05-14T11:50:00Z) - Doctorina MedBench: End-to-End Evaluation of Agent-Based Medical AI [0.0]
Doctorina MedBenchは、現実的な医師と患者の相互作用のシミュレーションに基づいて、エージェントベースの医療AIの包括的な評価フレームワークである。
このフレームワークは、安全指向のトラップケース、臨床シナリオのカテゴリベースのランダムサンプリング、完全な回帰テストをサポートしている。
評価指標の普遍性は、このフレームワークを医療AIシステムの評価だけでなく、医師を評価し、臨床推論スキルの開発を支援するためにも使用できる。
論文 参考訳(メタデータ) (2026-03-26T18:38:25Z) - Cerebra: A Multidisciplinary AI Board for Multimodal Dementia Characterization and Risk Assessment [56.62016795093786]
CerebraはインタラクティブなマルチエージェントAIチームで、ERH、臨床ノート、医療画像分析のための特殊エージェントをコーディネートする。
構造化された表現を操作することで、プライバシ保護デプロイメントをサポートし、モダリティが不完全であれば、堅牢である。
Cerebraは、有識者のパフォーマンスを著しく改善し、前向き認知症リスク推定において精度を17.5ポイント向上させた。
論文 参考訳(メタデータ) (2026-03-23T05:46:45Z) - QuarkMedBench: A Real-World Scenario Driven Benchmark for Evaluating Large Language Models [8.050059911826338]
LLM(Large Language Models)は、標準化された医療試験に優れるが、高いスコアは、現実世界の医療クエリに対する高品質な応答に変換できないことが多い。
実世界の医療LCM評価に適した生態学的に有効なベンチマークであるQuarkMedBenchを紹介する。
論文 参考訳(メタデータ) (2026-03-14T01:51:43Z) - LiveClin: A Live Clinical Benchmark without Leakage [50.45415584327275]
LiveClinは、実際の臨床実践を近似するために設計されたライブベンチマークである。
本研究は,患者を臨床経過全体にわたる複雑なマルチモーダルな評価シナリオに転換する。
LiveClin上で26のモデルを評価すると、これらの実世界のシナリオの難しさが明らかとなり、最高性能のモデルではケース精度が35.7%に達した。
論文 参考訳(メタデータ) (2026-02-18T03:59:46Z) - A Real-World Evaluation of LLM Medication Safety Reviews in NHS Primary Care [5.167350493769989]
本研究は,NHSプライマリケアデータを用いたLSMベースの医薬品安全性評価システムの最初の評価である。
患者を戦略的に採取し,幅広い臨床複雑性と薬剤の安全性リスクを捉えた。
当システムでは,臨床症状の認識に強い性能を示した。
論文 参考訳(メタデータ) (2025-12-24T11:58:49Z) - A Voice-Enabled Virtual Patient System for Interactive Training in Standardized Clinical Assessment [0.0]
大規模言語モデル(LLM)を利用した音声対応仮想患者シミュレーションシステムを提案する。
本研究は, 本システムの発展を概説し, 既定の臨床像に固執する仮想患者を創出する能力を検証した。
以上の結果から, LLMを用いた仮想患者シミュレーションは, 臨床医の教育に有効かつスケーラブルなツールであることが示唆された。
論文 参考訳(メタデータ) (2025-11-01T21:18:08Z) - EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [62.00431604976949]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。
我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。
私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文 参考訳(メタデータ) (2025-05-29T16:14:34Z) - Towards Automatic Evaluation for LLMs' Clinical Capabilities: Metric, Data, and Algorithm [15.627870862369784]
大規模言語モデル (LLMs) は, 臨床診断の効率向上への関心が高まっている。
臨床サービス提供におけるLCMの能力を評価するための自動評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-25T06:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。