論文の概要: Evolving Diagnostic Agents in a Virtual Clinical Environment
- arxiv url: http://arxiv.org/abs/2510.24654v1
- Date: Tue, 28 Oct 2025 17:19:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.30296
- Title: Evolving Diagnostic Agents in a Virtual Clinical Environment
- Title(参考訳): 仮想臨床環境における診断薬の進化
- Authors: Pengcheng Qiu, Chaoyi Wu, Junwei Liu, Qiaoyu Zheng, Yusheng Liao, Haowen Wang, Yun Yue, Qianrui Fan, Shuai Zhen, Jian Wang, Jinjie Gu, Yanfeng Wang, Ya Zhang, Weidi Xie,
- Abstract要約: 本稿では,大規模言語モデル(LLM)を強化学習を用いた診断エージェントとして訓練するためのフレームワークを提案する。
本手法は対話型探索と結果に基づくフィードバックによって診断戦略を取得する。
DiagAgentはDeepSeek-v3やGPT-4oなど、最先端の10のLLMを著しく上回っている。
- 参考スコア(独自算出の注目度): 75.59389103511559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a framework for training large language models (LLMs) as diagnostic agents with reinforcement learning, enabling them to manage multi-turn diagnostic processes, adaptively select examinations, and commit to final diagnoses. Unlike instruction-tuned models trained on static case summaries, our method acquires diagnostic strategies through interactive exploration and outcome-based feedback. Our contributions are fourfold: (i) We present DiagGym, a diagnostics world model trained with electronic health records that emits examination outcomes conditioned on patient history and recommended examination, serving as a virtual clinical environment for realistic diagnosis training and evaluation; (ii) We train DiagAgent via end-to-end, multi-turn reinforcement learning to learn diagnostic policies that optimize both information yield and diagnostic accuracy; (iii) We introduce DiagBench, a diagnostic benchmark comprising 750 cases with physician-validated examination recommendations and 99 cases annotated with 973 physician-written rubrics on diagnosis process; (iv) we demonstrate superior performance across diverse diagnostic settings. DiagAgent significantly outperforms 10 state-of-the-art LLMs, including DeepSeek-v3 and GPT-4o, as well as two prompt-engineered agents. In single-turn settings, DiagAgent achieves 9.34% higher diagnostic accuracy and 44.03% improvement in examination recommendation hit ratio. In end-to-end settings, it delivers 15.12% increase in diagnostic accuracy and 23.09% boost in examination recommendation F1 score. In rubric-based evaluation, it surpasses the next-best model, Claude-sonnet-4, by 7.1% in weighted rubric score. These findings indicate that learning policies in interactive clinical environments confers dynamic and clinically meaningful diagnostic management abilities unattainable through passive training alone.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)を強化学習を用いた診断エージェントとして訓練し,多ターン診断プロセスの管理,検査の適応的選択,最終診断へのコミットを可能にする枠組みを提案する。
静的ケースサマリーに基づいて訓練された指導訓練モデルとは異なり,本手法は対話的探索と結果に基づくフィードバックを通じて診断戦略を取得する。
私たちの貢献は4倍です。
(i)DiagGymは、電子的健康記録で訓練された診断学の世界モデルであり、患者の歴史に照らされた検査結果と推奨検査を出力し、現実的な診断訓練と評価のための仮想臨床環境として機能する。
(二)情報収量と診断精度の両方を最適化する診断方針を学ぶために、エンドツーエンドのマルチターン強化学習を通じてDiagAgentを訓練する。
3)ダイアグベンチ(DiagBench)は, 医師正診勧告750例, 医師書記法99例, 医師書記法99例からなる診断基準である。
(4) 多様な診断環境において, 優れた性能を示す。
DiagAgentはDeepSeek-v3やGPT-4oを含む10の最先端のLLMと、2つのプロンプトエンジンのエージェントを大きく上回っている。
シングルターンでは、DiagAgentは9.34%高い診断精度と44.03%の改善を達成している。
エンドツーエンド設定では、診断精度が15.12%向上し、23.09%の検査推奨F1スコアが向上する。
ルーリックに基づく評価では、次のベストモデルであるクロード・ソネット4を7.1%上回る。
これらの結果から,インタラクティブな臨床環境における学習方針は,受動的トレーニングだけでは達成できない動的かつ臨床的に意味のある診断管理能力を示すことが示唆された。
関連論文リスト
- Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - Sequential Diagnosis with Language Models [21.22416732642907]
本稿では,304症例を段階的に診断するシークエンシャル診断ベンチマークを紹介する。
成績は、診断精度だけでなく、医師の診察や検査の費用によって評価される。
また,医師のパネルを模擬したモデル診断オーケストレータであるMAI診断オーケストレータ(MAI-DxO)についても紹介する。
論文 参考訳(メタデータ) (2025-06-27T17:27:26Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [69.46279475491164]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models [25.13622249539088]
diagnosisArenaは、専門レベルの診断能力の厳格な評価のために設計されたベンチマークである。
診断アリーナは1,113組のセグメンテーション患者と、28の専門専門医からなる。
我々の研究では、最も先進的な推論モデルであるo3、o1、DeepSeek-R1でさえ、それぞれ51.12%、31.09%、17.79%の精度しか達成していないことが明らかになった。
論文 参考訳(メタデータ) (2025-05-20T09:14:53Z) - Enhancing Diagnostic Accuracy through Multi-Agent Conversations: Using Large Language Models to Mitigate Cognitive Bias [5.421033429862095]
臨床的意思決定における認知的バイアスは、診断の誤りや患者下結果に大きく寄与する。
本研究では,多エージェントフレームワークの利用を通じて,これらのバイアスを軽減するために,大規模言語モデルが果たす役割について検討する。
論文 参考訳(メタデータ) (2024-01-26T01:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。