論文の概要: MedExAgent: Training LLM Agents to Ask, Examine, and Diagnose in Noisy Clinical Environments
- arxiv url: http://arxiv.org/abs/2605.07058v1
- Date: Fri, 08 May 2026 00:12:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.688025
- Title: MedExAgent: Training LLM Agents to Ask, Examine, and Diagnose in Noisy Clinical Environments
- Title(参考訳): MedExAgent: ノイズのある臨床環境におけるLSMエージェントの質問, 検査, 診断の訓練
- Authors: Yicheng Gao, Xiaolin Zhou, Yahan Li, Yue Zhao, Ruishan Liu,
- Abstract要約: 臨床診断は部分観察可能なマルコフ決定プロセス (POMDP) として, 患者への質問, 検査をツールコールとして行うこと, 診断を発行することの3つのアクションタイプで定式化した。
臨床面接のためのCalgary-Cambridgeモデルにより構築された合成会話を教師付き微調整する2段階パイプラインを用いて,効果的な診断剤MedExAgentを訓練する。
- 参考スコア(独自算出の注目度): 6.823652031388484
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Real-world clinical diagnosis is a complex process in which the doctor is required to obtain information from both interaction with the patient and conducting medical exams. Additionally, the doctor needs to adapt to different patient personas, as well as noisy and incomplete information that can happen at any time during the process. However, existing benchmarks for medical LLMs and methods for automatic diagnosis largely simplify this process by reducing it to single-turn question answering, noise-free conversations, or sequential exam making, etc., ignoring the interactive and uncertain nature of clinical diagnosis. In this paper, we aim to address this gap by formalizing clinical diagnosis as a Partially Observable Markov Decision Process (POMDP) with three action types: questioning the patient, ordering medical exams as tool calls, and issuing a diagnosis. We also introduce a systematic noise model comprising seven patient noise types and three exam noise types. Using our proposed environment, we train an effective diagnosis agent, \textbf{MedExAgent}, through a two-stage pipeline that first performs supervised finetuning on synthetic conversations structured after the Calgary-Cambridge model for clinical interviews, and then applies DAPO to optimize a composite reward capturing diagnostic accuracy, tool call quality, and exam cost including financial cost and patient discomfort. Through extensive experiments and ablation studies, we demonstrate that MedExAgent achieves diagnostic performance comparable to larger models while maintaining cost-efficient examination strategies.
- Abstract(参考訳): 実世界の臨床診断は、医師が患者との相互作用から情報を得る必要のある複雑なプロセスである。
さらに、医師は異なる患者のペルソナに適応し、プロセス中にいつでも起こりうるノイズや不完全な情報に適応する必要がある。
しかし, 臨床診断の対話的・不確実性を無視しつつ, 単ターン質問応答, ノイズのない会話, シーケンシャルな検査等に還元することで, 医療用LCMのベンチマークや自動診断の手法が大幅に簡略化された。
本稿では, 臨床診断を部分的に観察可能なマルコフ決定プロセス (POMDP) として定式化し, 患者への質問, 検査をツールコールとして行うこと, 診断を発行することによる, このギャップに対処することを目的とする。
また,7種類の患者ノイズと3種類の試験ノイズを含む系統的なノイズモデルも導入した。
提案手法を用いて,臨床面接のためのCalgary-Cambridgeモデルで構築された合成会話を教師付き微調整する2段階のパイプラインを用いて,有効な診断エージェントであるtextbf{MedExAgent} を訓練し,診断精度,ツールコール品質,検査コストなどの費用を計測する複合報酬の最適化にDAPOを適用した。
MedExAgentは,大規模なモデルに匹敵する診断性能を達成し,コスト効率の高い検査戦略を維持できることを示した。
関連論文リスト
- Thinking Like a Doctor: Conversational Diagnosis through the Exploration of Diagnostic Knowledge Graphs [12.612647781309098]
本稿では,2段階の推論を行うための診断知識グラフを探索する対話型診断システムを提案する。
システムの質問に応答する現実的な患者シミュレータを使用します。
実験では、強いベースラインよりも診断精度と効率が向上した。
論文 参考訳(メタデータ) (2026-02-02T11:56:36Z) - EvoClinician: A Self-Evolving Agent for Multi-Turn Medical Diagnosis via Test-Time Evolutionary Learning [72.70291772077738]
エージェントのマルチターン診断能力を評価するためのベンチマークであるMed-Inquireを提案する。
次に、テスト時に効率的な診断戦略を学ぶ自己進化エージェントであるEvoClinicianを紹介する。
実験の結果,EvoClinicianは連続学習ベースラインや,メモリエージェントなどの自己進化エージェントよりも優れていた。
論文 参考訳(メタデータ) (2026-01-30T13:26:18Z) - ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。
本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。
実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文 参考訳(メタデータ) (2025-12-29T12:58:58Z) - Evolving Diagnostic Agents in a Virtual Clinical Environment [75.59389103511559]
本稿では,大規模言語モデル(LLM)を強化学習を用いた診断エージェントとして訓練するためのフレームワークを提案する。
本手法は対話型探索と結果に基づくフィードバックによって診断戦略を取得する。
DiagAgentはDeepSeek-v3やGPT-4oなど、最先端の10のLLMを著しく上回っている。
論文 参考訳(メタデータ) (2025-10-28T17:19:47Z) - Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Language Agents for Hypothesis-driven Clinical Decision Making with Reinforcement Learning [38.49879425944787]
本稿では,仮説駆動型不確実性認識言語エージェントLA-CDMを用いて,臨床診断のための意思決定をモデル化することを提案する。
LA-CDMは, 正確な仮説生成, 仮説の不確実性推定, 効率的な意思決定という, 臨床的意思決定の重要な側面を目標とした3つの目標を掲げて, LA-CDMを訓練する。
4つの腹部疾患を対象とする実世界のデータセットMIMIC-CDMについて検討した。
論文 参考訳(メタデータ) (2025-06-16T13:32:01Z) - Advancing Conversational Diagnostic AI with Multimodal Reasoning [44.1996223689966]
アーティキュレート・メディカル・インテリジェンス・エクスプローラー(AMIE)
システムは、対話フローを中間モデル出力によって動的に制御する状態認識対話フレームワークを実装している。
患者アクターとのチャットベースの相談の無作為で盲目なOSCEスタイルの研究において, AMIEをプライマリケア医師(PCP)と比較した。
論文 参考訳(メタデータ) (2025-05-06T20:52:01Z) - A Two-Stage Proactive Dialogue Generator for Efficient Clinical Information Collection Using Large Language Model [0.6926413609535759]
患者情報収集作業を自動化する診断対話システムを提案する。
医療史と会話のロジックを活用することで、会話エージェントは複数回にわたる臨床クエリを作成できる。
実世界の医療会話データセットを用いた実験結果から,本モデルが実際の医師の会話スタイルを模倣した臨床クエリを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-10-02T19:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。