論文の概要: Improving Clinical Diagnosis with Counterfactual Multi-Agent Reasoning
- arxiv url: http://arxiv.org/abs/2603.27820v1
- Date: Sun, 29 Mar 2026 19:14:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.13445
- Title: Improving Clinical Diagnosis with Counterfactual Multi-Agent Reasoning
- Title(参考訳): マルチエージェント推論による臨床診断の改善
- Authors: Zhiwen You, Xi Chen, Aniket Vashishtha, Simo Du, Gabriel Erion-Barner, Hongyuan Mei, Hao Peng, Yue Guo,
- Abstract要約: 臨床診断は、臨床医が証拠を集め、仮説を定め、代替的な説明に対してそれらをテストする複雑な推論プロセスである。
本稿では, 仮説テストの明確化とエビデンス・グラウンド化を図った臨床研修に触発された, 対物的マルチエージェント診断フレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.709358805587506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical diagnosis is a complex reasoning process in which clinicians gather evidence, form hypotheses, and test them against alternative explanations. In medical training, this reasoning is explicitly developed through counterfactual questioning--e.g., asking how a diagnosis would change if a key symptom were absent or altered--to strengthen differential diagnosis skills. As large language model (LLM)-based systems are increasingly used for diagnostic support, ensuring the interpretability of their recommendations becomes critical. However, most existing LLM-based diagnostic agents reason over fixed clinical evidence without explicitly testing how individual findings support or weaken competing diagnoses. In this work, we propose a counterfactual multi-agent diagnostic framework inspired by clinician training that makes hypothesis testing explicit and evidence-grounded. Our framework introduces counterfactual case editing to modify clinical findings and evaluate how these changes affect competing diagnoses. We further define the Counterfactual Probability Gap, a method that quantifies how strongly individual findings support a diagnosis by measuring confidence shifts under these edits. These counterfactual signals guide multi-round specialist discussions, enabling agents to challenge unsupported hypotheses, refine differential diagnoses, and produce more interpretable reasoning trajectories. Across three diagnostic benchmarks and seven LLMs, our method consistently improves diagnostic accuracy over prompting and prior multi-agent baselines, with the largest gains observed in complex and ambiguous cases. Human evaluation further indicates that our framework produces more clinically useful, reliable, and coherent reasoning. These results suggest that incorporating counterfactual evidence verification is an important step toward building reliable AI systems for clinical decision support.
- Abstract(参考訳): 臨床診断は、臨床医が証拠を集め、仮説を定め、代替的な説明に対してそれらをテストする複雑な推論プロセスである。
医学トレーニングにおいて、この推論は、例えば、重要な症状が欠如していたり、変化していたりした場合、どのように診断が変わるかを問う、反ファクトな質問を通じて明確に展開され、診断スキルが強化される。
大規模言語モデル(LLM)ベースのシステムが診断支援にますます利用されているため、リコメンデーションの解釈可能性が重要になる。
しかし、既存のLSMベースの診断薬の多くは、個々の所見が競合する診断をどのように支援するか、または弱めるかを明確に検査することなく、固定された臨床証拠を推論する。
本研究では, 臨床研修に触発された, 仮説テストの明確化とエビデンスを基盤とした, 反実的マルチエージェント診断フレームワークを提案する。
本フレームワークは,臨床所見の修正と,これらの変化が競合する診断にどのように影響するかを評価するために,対実的な症例編集を導入している。
さらに,これらの編集の下での信頼度変化を測定することにより,個々の発見が診断をいかに強く支援するかを定量化する手法である,対人的確率ギャップを規定する。
これらの反事実信号は多段階の専門的な議論を導いており、エージェントは不適切な仮説に挑戦し、微分診断を洗練させ、より解釈可能な推論軌道を創出することができる。
3つの診断ベンチマークと7つのLSMで,本手法は複雑であいまいな症例では最も多く,プロンプトや先行するマルチエージェントベースラインよりも診断精度が向上する。
人的評価は、我々のフレームワークがより臨床的に有用で、信頼性があり、一貫性のある推論を生み出すことを示唆している。
これらの結果は, 臨床診断支援のための信頼性の高いAIシステム構築に向けた重要なステップとして, 事実証拠検証の活用が重要であることを示唆している。
関連論文リスト
- CXReasonAgent: Evidence-Grounded Diagnostic Reasoning Agent for Chest X-rays [16.09644321057171]
胸部X線は胸部診断において中心的な役割を担い、その解釈は本質的に多段階の根拠に基づく推論を必要とする。
大規模視覚言語モデル(LVLM)は、診断的証拠に忠実に基づかない、もっともらしい応答を生成する。
本稿では,CXReasonAgentについて紹介する。CXReasonAgentは,大規模言語モデルと臨床診断ツールを統合した診断剤である。
論文 参考訳(メタデータ) (2026-02-26T17:51:21Z) - ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。
本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。
実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文 参考訳(メタデータ) (2025-12-29T12:58:58Z) - Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning [52.12425911708585]
Deep-DxSearchは、強化学習(RL)でエンドツーエンドに訓練されたエージェントRAGシステムである。
Deep-DxSearchでは,患者記録と信頼性のある医療知識情報を含む大規模医療検索コーパスを構築した。
実験により、エンドツーエンドのRLトレーニングフレームワークは、プロンプトエンジニアリングやトレーニングフリーなRAGアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-08-21T17:42:47Z) - LLM-Driven Medical Document Analysis: Enhancing Trustworthy Pathology and Differential Diagnosis [13.435898630240416]
低ランク適応を用いてLLaMA-v3を微調整する信頼性の高い医療文書分析プラットフォームを提案する。
本手法は差分診断のための最大のベンチマークデータセットであるDDXPlusを利用する。
開発したWebベースのプラットフォームでは、ユーザは独自の構造化されていない医療文書を提出し、正確な説明可能な診断結果を受け取ることができる。
論文 参考訳(メタデータ) (2025-06-24T15:12:42Z) - MSDiagnosis: A Benchmark for Evaluating Large Language Models in Multi-Step Clinical Diagnosis [8.641421154025211]
われわれはMSDiagnosisと呼ばれる中国の臨床診断基準を提案する。
このベンチマークは12の部門から2,225のケースで構成され、一次診断、鑑別診断、最終診断などのタスクをカバーする。
論文 参考訳(メタデータ) (2024-08-19T14:31:57Z) - Medical Dialogue Generation via Intuitive-then-Analytical Differential
Diagnosis [14.17497921394565]
Intuitive-then-Analytic Differential Diagnosis (IADDx) を用いた医用対話生成フレームワークを提案する。
本手法は,検索に基づく直感的アソシエーション(直感的アソシエーション)によるディファレンス診断から始まり,その後,グラフ強化解析手法により精査する。
提案手法の有効性を2つのデータセットで検証した。
論文 参考訳(メタデータ) (2024-01-12T12:35:19Z) - Towards the Identifiability and Explainability for Personalized Learner
Modeling: An Inductive Paradigm [36.60917255464867]
本稿では,エンコーダ・デコーダモデルにインスパイアされた新しい応答効率応答パラダイムに基づく,識別可能な認知診断フレームワークを提案する。
診断精度を損なうことなく,ID-CDFが効果的に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-09-01T07:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。