論文の概要: MedAction: Towards Active Multi-turn Clinical Diagnostic LLMs
- arxiv url: http://arxiv.org/abs/2605.07305v1
- Date: Fri, 08 May 2026 06:15:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.848455
- Title: MedAction: Towards Active Multi-turn Clinical Diagnostic LLMs
- Title(参考訳): MedAction: アクティブ多ターン臨床用LDMを目指して
- Authors: Hsin-Ling Hsu, Zizheng Wang, Donghua Zhang, Nai-Chia Chen, Jerry Wang, Jun-En Ding, Chia-Hsuan Hsu, Guoan Wang, Feng Liu, Fang-Ming Hung, Chenwei Wu, Liyue Shen,
- Abstract要約: 既存の医療訓練データは、モデルに完全な情報から推論するように教えるが、進化した部分的な証拠の下では行動しない。
木構造蒸留パイプラインであるMedActionを導入し,多変量かつ高品質な多ターン診断軌道を合成する。
このパイプラインを用いて、2,896件のPMC症例から32,681件のトラジェクトリのデータセットであるMedAction-32Kを構築した。
- 参考スコア(独自算出の注目度): 11.709211007913803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing LLM diagnoses are evaluated on static, single-turn settings where complete patient information is provided upfront, an oversimplification of real clinical practice. We study active diagnosis: the real-life clinical process of starting from initial observation, ordering tests, interpreting results, and updating a differential diagnosis across multiple turns. Through systematic analysis, we identify three recurring failure modes in current LLMs: ungrounded test ordering, unreliable diagnostic update, and degraded multi-turn coherence. Together, these failures reveal a core deficit: existing medical training data teaches models to reason from complete information but not to act under evolving, partial evidence. To address this gap, we introduce MedAction, a tree-structured distillation pipeline that synthesizes diverse and high-quality multi-turn diagnostic trajectories via LLM-environment interaction. We propose two knowledge-graph-grounded metrics to filter trajectory quality: Disease Trajectory Consistency (DTC), which tracks whether the model's hypothesis converges toward the correct diagnosis, and Reasoning-Action Consistency (RAC), which verifies that belief updates are driven by gathered evidence. Using this pipeline, we construct MedAction-32K, a dataset of 32,681 trajectories from 2,896 PMC cases. Fine-tuning an 8B model on MedAction-32K achieves state-of-the-art performance among open-source models on both MedR-Bench and our curated MedAction-300-Hard benchmark, pushing the edge for open-source medical LLMs.
- Abstract(参考訳): 既存のLCM診断のほとんどは、患者情報を事前に提供した静的な単一ターン設定で評価され、実際の診療を単純化する。
本研究は, 初期観察, 発注試験, 結果の解釈, 複数回にわたる鑑別診断の更新からスタートする実生活臨床過程について検討した。
系統的な解析により,現在のLCMでは,非定位テスト順序,信頼性の低い診断更新,劣化したマルチターンコヒーレンスという3つの繰り返し故障モードが同定された。
既存の医療訓練データは、完全な情報から推論するが、進化した部分的な証拠の下では行動しないようモデルに教える。
このギャップに対処するために,LLM-環境相互作用を介して多種多様な高品質な多ターン診断トラジェクトリを合成する木構造蒸留パイプラインであるMedActionを導入する。
本研究では, モデル仮説が正しい診断に収束するかどうかを追跡する病的軌道整合性 (DTC) と, 信念更新が集合的証拠によって引き起こされることを検証した推論・行動整合性 (RAC) の2つの知識グラフ基底化指標を提案する。
このパイプラインを用いて、2,896件のPMCから32,681件のトラジェクトリのデータセットであるMedAction-32Kを構築した。
MedAction-32K上の8Bモデルを微調整することで、MedR-BenchとキュレートしたMedAction-300-Hardベンチマークの両方のオープンソースモデルにおける最先端のパフォーマンスを実現し、オープンソース医療用LLMの最先端を推し進める。
関連論文リスト
- Benchmarking Multi-turn Medical Diagnosis: Hold, Lure, and Self-Correction [72.89352076103889]
大規模言語モデル (LLM) は, 臨床情報がすべて一ターンで提供される場合に, 高い精度で診断を行う。
1,035例からなる高忠実多ターン診断ベンチマークであるMINTを導入する。
診断決定に大きな影響を及ぼす3つの永続的な行動パターンを明らかにする。
論文 参考訳(メタデータ) (2026-04-06T00:23:10Z) - MedEinst: Benchmarking the Einstellung Effect in Medical LLMs through Counterfactual Differential Diagnosis [13.241795322837861]
MedEinstは,49の疾患に5,383対の臨床症例を比較検討した。
バイアストラップ速度による感受性の測定-正確な診断制御にもかかわらず、誤診断トラップの確率について検討する。
論文 参考訳(メタデータ) (2026-01-10T17:39:25Z) - MedKGI: Iterative Differential Diagnosis with Medical Knowledge Graphs and Information-Guided Inquiring [39.776843923694244]
臨床実践を基盤とした診断フレームワークであるMedKGIを提案する。
MedKGI は診断精度と検査効率の両方において強力な LLM ベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2025-12-30T12:31:53Z) - Evolving Diagnostic Agents in a Virtual Clinical Environment [75.59389103511559]
本稿では,大規模言語モデル(LLM)を強化学習を用いた診断エージェントとして訓練するためのフレームワークを提案する。
本手法は対話型探索と結果に基づくフィードバックによって診断戦略を取得する。
DiagAgentはDeepSeek-v3やGPT-4oなど、最先端の10のLLMを著しく上回っている。
論文 参考訳(メタデータ) (2025-10-28T17:19:47Z) - Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - AGIR: Assessing 3D Gait Impairment with Reasoning based on LLMs [0.0]
歩行障害は、神経変性疾患の早期診断、疾患モニタリング、治療評価において重要な役割を果たす。
近年のディープラーニングベースのアプローチは、分類精度を一貫して改善しているが、解釈可能性に欠けることが多い。
本稿では、事前訓練されたVQ-VAEモーショントークンライザと、一対のモーショントークン上で微調整されたLarge Language Model(LLM)からなる新しいパイプラインであるAGIRを紹介する。
論文 参考訳(メタデータ) (2025-03-23T17:12:16Z) - Improving Interactive Diagnostic Ability of a Large Language Model Agent Through Clinical Experience Learning [17.647875658030006]
本研究では,性能劣化現象の根底にあるメカニズムについて検討する。
我々は,中国とアメリカの医療施設から350万件以上の電子医療記録を活用する,PPME ( Plug-and-play) LLM エージェントを開発した。
本研究は, 初期疾患の診断・調査のための専門モデルを統合し, 指導的, 強化的学習技術を用いて訓練した。
論文 参考訳(メタデータ) (2025-02-24T06:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。