Fugu-MT 論文翻訳(概要): ClinEnv: An Interactive Multi-Stage Long Horizon EHR Environment for Agents

論文の概要: ClinEnv: An Interactive Multi-Stage Long Horizon EHR Environment for Agents

arxiv url: http://arxiv.org/abs/2606.02568v1
Date: Mon, 01 Jun 2026 17:56:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-02 21:34:32.562995
Title: ClinEnv: An Interactive Multi-Stage Long Horizon EHR Environment for Agents
Title（参考訳）: ClinEnv:エージェントのための対話型マルチステージロングホライゾンEHR環境
Authors: Yuxing Lu, Yushuhong Lin, Wenqi Shi, J. Ben Tamo, Xukai Zhao, Jinzhuo Wang, May Dongmei Wang,
Abstract要約: ClinEnvは、決定論的グラウンドマッチングと、その情報収集方法を通じて、モデルが決定するものをスコア付けする。 ClinEnvは、結果のみの評価に見えない、直接測定可能な情報取得ギャップを作る。
参考スコア（独自算出の注目度）: 14.434996950038956
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Clinical practice is not the selection of an answer from enumerated options: a physician gathers heterogeneous information incrementally and commits to sequential, irreversible decisions under uncertainty. Static benchmarks cannot probe and existing interactive medical benchmarks each compromise on at least one of them. We present ClinEnv, an interactive benchmark that evaluates LLMs as attending physicians over real inpatient admissions under a paradigm we term Longitudinal Inpatient Simulation. Each case is automatically constructed into an ordered sequence of decision stages; at every stage the model must actively query four specialized agents before committing to medications, procedures, and diagnoses. ClinEnv scores both what the model decides, through deterministic ontology-grounded matching, and how it gathers information. Across seven models, the strongest reaches only 0.31 decision F1, and outcome quality is sharply decoupled from process quality. Difficulty concentrates in management decisions and later stages, where models recover discharge diagnoses far more reliably than management actions (0.51 vs. 0.17 F1) and continue to issue redundant queries as cases progress. ClinEnv makes this information-acquisition gap, invisible to outcome-only evaluation, directly measurable.
Abstract（参考訳）: 医師は不均一な情報を段階的に収集し、不確実性の下で連続的に不可逆的な決定にコミットする。静的ベンチマークでは、少なくとも1つについて、既存のインタラクティブな医療ベンチマークを調査できない。 ClinEnv は,長期入院シミュレーションというパラダイムの下で,実際の入院患者に対して LLM を入院医師として評価する対話型ベンチマークである。各ケースは、順序付けられた決定段階に自動的に構築される。各段階で、モデルは、薬、手順、診断にコミットする前に、4つの専門エージェントに積極的に問い合わせる必要がある。 ClinEnvは、決定論的オントロジーに基づくマッチングと、それがどのように情報を集めるかによって、モデルが決定するものをスコア付けする。 7つのモデルで最強の判定F1は0.31であり、結果の品質はプロセス品質から著しく切り離されている。難易度は管理判断や後期段階に集中しており、モデル回復は管理行動(0.51対0.17F1)よりもはるかに確実な診断を行い、ケースが進行するにつれて冗長なクエリを発行し続ける。 ClinEnvは、結果のみの評価に見えない、直接測定可能な情報取得ギャップを作る。

関連論文リスト

Benchmarking Multi-turn Medical Diagnosis: Hold, Lure, and Self-Correction [72.89352076103889]
大規模言語モデル (LLM) は, 臨床情報がすべて一ターンで提供される場合に, 高い精度で診断を行う。 1,035例からなる高忠実多ターン診断ベンチマークであるMINTを導入する。診断決定に大きな影響を及ぼす3つの永続的な行動パターンを明らかにする。
論文参考訳（メタデータ） (2026-04-06T00:23:10Z)
Cerebra: A Multidisciplinary AI Board for Multimodal Dementia Characterization and Risk Assessment [56.62016795093786]
CerebraはインタラクティブなマルチエージェントAIチームで、ERH、臨床ノート、医療画像分析のための特殊エージェントをコーディネートする。構造化された表現を操作することで、プライバシ保護デプロイメントをサポートし、モダリティが不完全であれば、堅牢である。 Cerebraは、有識者のパフォーマンスを著しく改善し、前向き認知症リスク推定において精度を17.5ポイント向上させた。
論文参考訳（メタデータ） (2026-03-23T05:46:45Z)
MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences [50.71326426975699]
MedArenaは医療用大規模言語モデル(LLM)のためのインタラクティブな評価プラットフォームである。 MedArenaは、2つのランダムに選択されたモデルからの応答を表示し、ユーザが好みのレスポンスを選択するように要求する。 2025年11月1日までに12台のLLMで収集された1571の選好のうち、ジェミニ2.0フラッシュシンキング、ジェミニ2.5プロ、GPT-4oがブラッドリー・テリーのレーティングで上位3モデルとなった。
論文参考訳（メタデータ） (2026-03-13T22:30:26Z)
ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文参考訳（メタデータ） (2025-12-29T12:58:58Z)
Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文参考訳（メタデータ） (2025-10-11T16:24:35Z)
AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments [2.567146936147657]
シミュレーションされた臨床環境における大規模言語モデル(LLM)の評価のためのマルチモーダルエージェントベンチマークであるAgentClinicを紹介する。我々は,AgentClinicの逐次決定形式におけるMedQA問題の解決が極めて困難であることに気付き,診断精度が元の精度の10分の1以下に低下することを発見した。
論文参考訳（メタデータ） (2024-05-13T17:38:53Z)
Zero-Shot Clinical Trial Patient Matching with LLMs [40.31971412825736]
大規模言語モデル(LLM)は、自動スクリーニングの有望なソリューションを提供する。我々は,患者の診療歴を非構造的臨床テキストとして考慮し,その患者が包括的基準を満たしているかどうかを評価するLCMベースのシステムを構築した。提案システムは,n2c2 2018コホート選択ベンチマークにおいて,最先端のスコアを達成している。
論文参考訳（メタデータ） (2024-02-05T00:06:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。