論文の概要: From Answers to Arguments: Toward Trustworthy Clinical Diagnostic Reasoning with Toulmin-Guided Curriculum Goal-Conditioned Learning
- arxiv url: http://arxiv.org/abs/2604.11137v2
- Date: Sun, 19 Apr 2026 09:00:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 19:27:32.389575
- Title: From Answers to Arguments: Toward Trustworthy Clinical Diagnostic Reasoning with Toulmin-Guided Curriculum Goal-Conditioned Learning
- Title(参考訳): 論点から論点へ:Tulmin-Guided Curriculum Goal-Conditioned Learningによる信頼できる臨床診断的推論に向けて
- Authors: Chen Zhan, Xiaoyu Tan, Gengchen Ma, Yu-Jie Xiong, Xiaoyan Jiang, Xihe Qiu,
- Abstract要約: 大規模言語モデル(LLM)は「欠陥推論による正しい答え」を生成する
本稿では,診断プロセスにトゥールミンモデルを適用することにより,信頼性の高い臨床議論の枠組みを確立する。
CGCL(Curriculum Goal-Conditioned Learning)という新たな学習パイプラインを提案する。
実験の結果,資源集約型強化学習(RL)手法に匹敵する診断精度と推論品質が得られた。
- 参考スコア(独自算出の注目度): 17.420995251535647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of Large Language Models (LLMs) into clinical decision support is critically obstructed by their opaque and often unreliable reasoning. In the high-stakes domain of healthcare, correct answers alone are insufficient; clinical practice demands full transparency to ensure patient safety and enable professional accountability. A pervasive and dangerous weakness of current LLMs is their tendency to produce "correct answers through flawed reasoning." This issue is far more than a minor academic flaw; such process errors signal a fundamental lack of robust understanding, making the model prone to broader hallucinations and unpredictable failures when faced with real-world clinical complexity. In this paper, we establish a framework for trustworthy clinical argumentation by adapting the Toulmin model to the diagnostic process. We propose a novel training pipeline: Curriculum Goal-Conditioned Learning (CGCL), designed to progressively train LLM to generate diagnostic arguments that explicitly follow this Toulmin structure. CGCL's progressive three-stage curriculum systematically builds a solid clinical argument: (1) extracting facts and generating differential diagnoses; (2) justifying a core hypothesis while rebutting alternatives; and (3) synthesizing the analysis into a final, qualified conclusion. We validate CGCL using T-Eval, a quantitative framework measuring the integrity of the diagnosis reasoning. Experiments show that our method achieves diagnostic accuracy and reasoning quality comparable to resource-intensive Reinforcement Learning (RL) methods, while offering a more stable and efficient training pipeline.
- Abstract(参考訳): LLM(Large Language Models)の臨床的決定支援への統合は、不透明でしばしば信頼性の低い推論によって著しく妨げられている。
医療の分野では、正しい答えだけでは不十分であり、臨床実践は患者の安全を確保し、専門的な説明責任を実現するために完全な透明性を要求する。
現在のLLMの広範かつ危険な弱点は、「欠陥のある推論を通じて正しい答えを導き出す」傾向にある。
このようなプロセスエラーは、堅牢な理解の根本的な欠如を示唆するものであり、実際の臨床の複雑さに直面した場合には、より広範な幻覚や予測不可能な失敗を招きやすい。
本稿では,診断プロセスにトゥールミンモデルを適用することにより,信頼性の高い臨床議論の枠組みを確立する。
本稿では,このToulmin構造を明示的に追従する診断引数を生成するために,LCMを段階的に学習するためのCGCL(Curriculum Goal-Conditioned Learning)を提案する。
CGCLの進歩的な3段階のカリキュラムは、(1)事実を抽出し、差分診断を生成すること、(2)代替案に反論しながらコア仮説を正当化すること、(3)分析を最終的な結論に合成すること、という、しっかりとした臨床の議論を体系的に構築する。
診断推論の完全性を測定する定量的フレームワークであるT-Evalを用いてCGCLを検証する。
実験の結果,資源集約型強化学習(RL)手法に匹敵する診断精度と推論品質が得られた。
関連論文リスト
- Evaluating an evidence-guided reinforcement learning framework in aligning light-parameter large language models with decision-making cognition in psychiatric clinical reasoning [29.976546632432512]
大規模言語モデル(LLM)は、医学的意思決定を支援するための変革的な可能性を持っているが、その精神医学への応用は幻覚や表面的推論によって制限されている。
本稿では,LLMの内部推論と専門的な精神医学的実践の整合性を考慮した強化学習フレームワークであるClinMPOを紹介する。
論文 参考訳(メタデータ) (2026-02-06T07:21:08Z) - Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models [48.95516224614331]
MedGaze-Benchは、臨床医の視線を認知的カーソルとして活用し、手術、緊急シミュレーション、診断解釈における意図的理解を評価する最初のベンチマークである。
本ベンチマークでは,解剖学的構造の視覚的均一性,臨床における時間・因果依存性の厳格化,安全プロトコルへの暗黙の順守という3つの基本的な課題に対処する。
論文 参考訳(メタデータ) (2026-01-11T02:20:40Z) - Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - OncoReason: Structuring Clinical Reasoning in LLMs for Robust and Interpretable Survival Prediction [2.904892426557913]
大規模言語モデル (LLM) は, バイオメディカルNLPにおいて高い性能を示した。
本稿では,自己回帰型LPMと結果予測のための臨床推論を整合させる,統合型マルチタスク学習フレームワークを提案する。
マルチタスク・クリニカル・モデリングにおける推論・アライメントの重要性について検討した。
論文 参考訳(メタデータ) (2025-10-20T13:35:12Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Integrating clinical reasoning into large language model-based diagnosis through etiology-aware attention steering [7.092919468004549]
LLM(Large Language Models)は、医学的テキスト理解と生成において重要な機能を示す。
本研究の目的は,LSMの診断精度と臨床推論能力を高めることである。
論文 参考訳(メタデータ) (2025-08-01T03:05:43Z) - DocCHA: Towards LLM-Augmented Interactive Online diagnosis System [17.975659876934895]
DocCHAは、診断プロセスを3段階に分解することで臨床推論をエミュレートする、信頼性に配慮したモジュラーなフレームワークである。
実世界の中国のコンサルティングデータセットを2つ評価した。
論文 参考訳(メタデータ) (2025-07-10T15:52:04Z) - Language Agents for Hypothesis-driven Clinical Decision Making with Reinforcement Learning [38.49879425944787]
本稿では,仮説駆動型不確実性認識言語エージェントLA-CDMを用いて,臨床診断のための意思決定をモデル化することを提案する。
LA-CDMは, 正確な仮説生成, 仮説の不確実性推定, 効率的な意思決定という, 臨床的意思決定の重要な側面を目標とした3つの目標を掲げて, LA-CDMを訓練する。
4つの腹部疾患を対象とする実世界のデータセットMIMIC-CDMについて検討した。
論文 参考訳(メタデータ) (2025-06-16T13:32:01Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。