論文の概要: MedGuideX: Internalizing Decision Logic from Executable Guidelines into Large Language Models for Clinical Reasoning
- arxiv url: http://arxiv.org/abs/2605.26567v1
- Date: Tue, 26 May 2026 05:36:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.683764
- Title: MedGuideX: Internalizing Decision Logic from Executable Guidelines into Large Language Models for Clinical Reasoning
- Title(参考訳): MedGuideX: 実行可能なガイドラインから臨床推論のための大規模言語モデルへの決定論理の内在化
- Authors: Yuhao Shen, Lang Cao, Simo Du, Yuqing Wang, Juexiao Zhou, Hao Peng, Yue Guo,
- Abstract要約: 臨床実践ガイドライン(CPGs)は、臨床医が患者変数、条件基準、レコメンデーションルールを評価することによって適用するエビデンスに基づく意思決定ロジックを符号化する。
我々は、CPG勧告を実行可能な臨床判断ロジックに変換するガイドライン由来のトレーニングパイプラインを導入する。
4つの臨床推論ベンチマークで、MedGuideXは平均精度が10.28%向上した。
- 参考スコア(独自算出の注目度): 24.304759042225697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clinical practice guidelines (CPGs) encode evidence-based decision logic that clinicians apply by evaluating patient variables, conditional criteria, and recommendation rules. However, existing methods often use CPGs as free-text training data or retrieval sources, underutilizing their procedural decision structure. To better exploit this structure, we introduce a guideline-derived training pipeline that transforms CPG recommendations into executable clinical decision logic and uses it to generate factual and counterfactual question-answering data. Theses data teach models both guideline-supported decisions and how decisions change under different patient conditions. Post-training a medical LLM on the generated data yields MedGuideX. Across four clinical reasoning benchmarks, MedGuideX achieves a 10.28% relative improvement in average accuracy. Physician evaluation further shows that MedGuideX better recovers clinician authored reasoning steps and produces physician-preferred rationales in faithfulness, validity, completeness, and clarity. Overall, our results show that executable decision logic from CPGs can be transformed into scalable supervision for building reliable medical LLMs.
- Abstract(参考訳): 臨床実践ガイドライン(CPGs)は、臨床医が患者変数、条件基準、レコメンデーションルールを評価することによって適用するエビデンスに基づく意思決定ロジックを符号化する。
しかし、既存の手法では、CPGを自由テキストトレーニングデータや検索ソースとして利用し、手続き的決定構造を過小評価している。
この構造をより効果的に活用するために、ガイドラインに基づくトレーニングパイプラインを導入し、CPG勧告を実行可能な臨床決定ロジックに変換し、現実的および反事実的質問応答データを生成する。
これらのデータは、ガイドラインに支持された意思決定と、異なる患者条件下での意思決定の方法の両方をモデルに教える。
生成されたデータに対する医療用LLMのトレーニング後、MedGuideXが得られる。
4つの臨床推論ベンチマークで、MedGuideXは平均精度が10.28%向上した。
医学的評価はさらに、MedGuideXは、臨床医が要求する推論ステップを回復し、医師が優先する忠実さ、妥当性、完全性、明確さの有理性を生み出すことを示している。
以上の結果から,CPGの実行可能な決定ロジックは,信頼性の高い医療用LCMを構築するためのスケーラブルな管理に変換可能であることが示唆された。
関連論文リスト
- MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences [50.71326426975699]
MedArenaは医療用大規模言語モデル(LLM)のためのインタラクティブな評価プラットフォームである。
MedArenaは、2つのランダムに選択されたモデルからの応答を表示し、ユーザが好みのレスポンスを選択するように要求する。
2025年11月1日までに12台のLLMで収集された1571の選好のうち、ジェミニ2.0フラッシュシンキング、ジェミニ2.5プロ、GPT-4oがブラッドリー・テリーのレーティングで上位3モデルとなった。
論文 参考訳(メタデータ) (2026-03-13T22:30:26Z) - Closing Reasoning Gaps in Clinical Agents with Differential Reasoning Learning [16.144050164828794]
本稿では, 臨床薬品の理性差を学習し, 臨床薬品の改善を図るためのフレームワークDRLを提案する。
DRLは、有向非巡回グラフ(DAG)として推論グラフを抽出し、臨床重み付きグラフ編集距離(GED)に基づく不一致解析を行う。
推論では、エージェントプロンプトを増強し、可能性のあるロジックギャップをパッチするために、トップ$k$命令を検索します。
論文 参考訳(メタデータ) (2026-02-10T16:29:32Z) - ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。
本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。
実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文 参考訳(メタデータ) (2025-12-29T12:58:58Z) - MedCEG: Reinforcing Verifiable Medical Reasoning with Critical Evidence Graph [17.320322032287894]
MedCEGは医療言語モデルに臨床的に有効な推論経路を付加するフレームワークである。
推論プロセスの指針として,臨床推論手順の見直しを紹介する。
実験結果から,MedCEGは臨床的に妥当な推論鎖を産生しながら,既存の方法を上回る性能を示した。
論文 参考訳(メタデータ) (2025-12-15T16:38:46Z) - Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Refine Medical Diagnosis Using Generation Augmented Retrieval and Clinical Practice Guidelines [16.56254046507092]
GARMLE-Gは、医療用言語モデルの出力を権威的ガイドラインに根拠づけた、世代別検索フレームワークである。
従来のRetrieval-Augmented Generationベースのアプローチとは異なり、GARMLE-Gは権威的なガイドラインコンテンツを直接検索することで幻覚のない出力を可能にする。
高血圧診断のためのプロトタイプシステムを開発し, 検索精度, 意味的関連性, 臨床ガイドラインの適合性を実証した。
論文 参考訳(メタデータ) (2025-06-22T11:31:13Z) - MedGUIDE: Benchmarking Clinical Decision-Making in Large Language Models [10.46932473088646]
MedGUIDEは,Large Language Models (LLMs) を評価するための新しいベンチマークであり,ガイドラインに一貫性のある臨床診断を行う能力について紹介する。
MedGUIDEは17種類の癌にまたがる55のNCCN決定木から構築されている。
本研究では,10の臨床的,言語学的基準において,専門家ラベル付き報酬モデルとLLM-as-a-judgeアンサンブルを組み合わせた2段階の品質選択プロセスを適用し,高品質なサンプル7,747を選定した。
論文 参考訳(メタデータ) (2025-05-16T18:21:52Z) - Deep Reinforcement Learning for Personalized Diagnostic Decision Pathways Using Electronic Health Records: A Comparative Study on Anemia and Systemic Lupus Erythematosus [1.7965876401882177]
我々は、診断のタスクをシーケンシャルな意思決定問題として定式化する。
本研究では,Deep Reinforcement Learning (DRL)アルゴリズムを用いて,行動の最適なシーケンスを学習する。
貧血と全身性エリテマトーデスの2症例を経験したので報告する。
論文 参考訳(メタデータ) (2024-04-09T00:07:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。