論文の概要: CP-Env: Evaluating Large Language Models on Clinical Pathways in a Controllable Hospital Environment
- arxiv url: http://arxiv.org/abs/2512.10206v2
- Date: Fri, 12 Dec 2025 01:38:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 13:50:29.180298
- Title: CP-Env: Evaluating Large Language Models on Clinical Pathways in a Controllable Hospital Environment
- Title(参考訳): CP-Env:制御可能な病院環境における臨床パスにおける大規模言語モデルの評価
- Authors: Yakun Zhu, Zhongzhen Huang, Qianhan Feng, Linjie Mu, Yannian Gu, Shaoting Zhang, Qi Dou, Xiaofan Zhang,
- Abstract要約: 本研究は,大規模言語モデル(LLM)をエンド・ツー・エンドの医療経路にわたって評価するために設計された,コントロール可能なエージェント型病院環境であるCP-Envを紹介する。
実際の病院適応的な医療の流れに続き、分枝型長期タスク実行を可能にします。
その結果、ほとんどのモデルは経路幻覚に悩まされ、複雑さを示し、重要な診断の詳細を失うことが判明した。
- 参考スコア(独自算出の注目度): 29.48544328813161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical care follows complex clinical pathways that extend beyond isolated physician-patient encounters, emphasizing decision-making and transitions between different stages. Current benchmarks focusing on static exams or isolated dialogues inadequately evaluate large language models (LLMs) in dynamic clinical scenarios. We introduce CP-Env, a controllable agentic hospital environment designed to evaluate LLMs across end-to-end clinical pathways. CP-Env simulates a hospital ecosystem with patient and physician agents, constructing scenarios ranging from triage and specialist consultation to diagnostic testing and multidisciplinary team meetings for agent interaction. Following real hospital adaptive flow of healthcare, it enables branching, long-horizon task execution. We propose a three-tiered evaluation framework encompassing Clinical Efficacy, Process Competency, and Professional Ethics. Results reveal that most models struggle with pathway complexity, exhibiting hallucinations and losing critical diagnostic details. Interestingly, excessive reasoning steps can sometimes prove counterproductive, while top models tend to exhibit reduced tool dependency through internalized knowledge. CP-Env advances medical AI agents development through comprehensive end-to-end clinical evaluation. We provide the benchmark and evaluation tools for further research and development at https://github.com/SPIRAL-MED/CP_ENV.
- Abstract(参考訳): 医療は、孤立した医師と患者の出会いを超えて広がる複雑な臨床経路を辿り、意思決定と異なる段階間の遷移を強調する。
静的な検査や孤立した対話に焦点を当てた最近のベンチマークでは、動的臨床シナリオにおいて大きな言語モデル(LLM)を不十分に評価している。
CP-Envは, 終末期臨床経路におけるLSMの評価を目的とした, コントロール可能なエージェント型病院環境である。
CP-Envは病院のエコシステムを患者と医師のエージェントでシミュレートし、トリアージやスペシャリストコンサルテーションから診断テスト、エージェントインタラクションのための多分野チームミーティングまで、シナリオを構築している。
実際の病院適応的な医療の流れに続き、分枝型長期タスク実行を可能にします。
本稿では,臨床効果,プロセス能力,職業倫理の3段階評価フレームワークを提案する。
その結果、ほとんどのモデルは経路の複雑さに悩まされ、幻覚を示し、重要な診断の詳細を失うことが判明した。
興味深いことに、過剰な推論ステップは時に非生産的であることを証明し、上位モデルは内部知識を通じてツール依存を減らしがちである。
CP-Envは、包括的なエンドツーエンドの臨床評価を通じて、医療AIエージェントの開発を進める。
我々は、https://github.com/SPIRAL-MED/CP_ENVでさらなる研究・開発を行うためのベンチマークおよび評価ツールを提供する。
関連論文リスト
- Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Automated Clinical Problem Detection from SOAP Notes using a Collaborative Multi-Agent LLM Architecture [8.072932739333309]
我々は,このギャップに対処するために,臨床相談チームをモデル化する共同マルチエージェントシステム(MAS)を導入する。
このシステムは、SOAPノートの主観的(S)および目的的(O)セクションのみを分析することによって、臨床上の問題を特定する。
マネージャエージェントは、階層的で反復的な議論に従事し、合意に達するために、動的に割り当てられた専門家エージェントのチームを編成する。
論文 参考訳(メタデータ) (2025-08-29T17:31:24Z) - TRUST: An LLM-Based Dialogue System for Trauma Understanding and Structured Assessments [8.618945530676614]
本研究は,臨床症状を再現するLLMを用いた対話システムを開発することにより,メンタルヘルスアクセシビリティのギャップを埋めることを目的とする。
我々は、PTSDの正式な診断および評価を行うことができる協調LLMモジュールのフレームワークであるTRUSTを紹介する。
臨床医による時間と費用のかかる手動テストを置き換えるために,実生活の面接書に基づく患者シミュレーション手法を開発した。
論文 参考訳(メタデータ) (2025-04-30T17:58:06Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。