論文の概要: Benchmarking Multi-turn Medical Diagnosis: Hold, Lure, and Self-Correction
- arxiv url: http://arxiv.org/abs/2604.04325v1
- Date: Mon, 06 Apr 2026 00:23:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.04588
- Title: Benchmarking Multi-turn Medical Diagnosis: Hold, Lure, and Self-Correction
- Title(参考訳): マルチターン医療診断のベンチマーク:ホールド,ルアー,セルフコレクション
- Authors: Jinrui Fang, Runhan Chen, Xu Yang, Jian Yu, Jiawei Xu, Ashwin Vinod, Wenqi Shi, Tianlong Chen, Heng Ji, ChengXiang Zhai, Ying Ding, Yuji Zhang,
- Abstract要約: 大規模言語モデル (LLM) は, 臨床情報がすべて一ターンで提供される場合に, 高い精度で診断を行う。
1,035例からなる高忠実多ターン診断ベンチマークであるMINTを導入する。
診断決定に大きな影響を及ぼす3つの永続的な行動パターンを明らかにする。
- 参考スコア(独自算出の注目度): 72.89352076103889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) achieve high accuracy in medical diagnosis when all clinical information is provided in a single turn, yet how they behave under multi-turn evidence accumulation closer to real clinical reasoning remains unexplored. We introduce MINT (Medical Incremental N-Turn Benchmark), a high-fidelity, multi-turn medical diagnosis benchmark comprising 1,035 cases with clinically labeled evidence shards, controlled turn granularity, and information-preserving decomposition. Through systematic evaluation of 11 LLMs on MINT, we uncover three persistent behavioral patterns that significantly impact diagnostic decisions: (1) intent to answer, models rush to answer before sufficient evidence has been observed, with over 55% of answers committed within the first two turns; (2) self-correction, incorrect-to-correct answer revisions occur at up to 10.6 times the rate of correct-to-incorrect flips, revealing a latent capacity for self-correction that premature commitment forecloses; and (3) strong lures, clinically salient information such as laboratory results trigger premature answering even when models are explicitly instructed to wait. We translate these findings into clinically actionable guidance: deferring the diagnostic question to later turns reduces premature answering and improves accuracy at the first point of commitment by up to 62.6%, while reserving salient clinical evidence for later turns prevents a catastrophic accuracy drop of up to 23.3% caused by premature commitment. Our work provides both a controlled evaluation framework and concrete recommendations for improving the reliability of LLMs in multi-turn medical diagnosis.
- Abstract(参考訳): 大規模言語モデル (LLM) は, 臨床情報がすべて一ターンで提供された場合に高い精度で診断できるが, 実際の臨床理由に近づいたマルチターンエビデンスの下でどのように振る舞うかは未解明のままである。
MINT (Medical Incremental N-Turn Benchmark) は, 臨床的にラベル付けされたエビデンスシャード, 制御されたターン粒度, 情報保存的分解を有する1,035例の高忠実度多ターン診断ベンチマークである。
MINT 上での 11 個の LLM の体系的評価により,(1) 回答の意図,モデルが十分な証拠を提示する前に回答を急ぐこと,(2) 自己訂正,誤り解答の正解率を最大 10.6 倍に向上すること, 自己補正の潜伏能力を明らかにすること, (3) 検査結果などの強力なルアー, 実験結果などの臨床的に健全な情報により, モデルが待機を指示された場合でも, 早期解答を誘発すること, の3つが明らかになった。
本研究は, これらの知見を臨床的に実行可能なガイダンスに翻訳する: 早期の回答を遅延させることにより, 初歩の解答が減少し, 初歩の精度が62.6%向上する一方, 術後の正常な臨床証拠の保存は, 早期の解答による破滅的な精度の最大23.3%低下を防ぐ。
本研究は,マルチターン診断におけるLCMの信頼性向上のための,制御された評価フレームワークと具体的な勧告の両方を提供する。
関連論文リスト
- Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification [60.18369393468405]
既存の検証器は通常、ドメイン知識の欠如と限られた校正のために性能が劣る。
GLEANは専門家によって計算されたプロトコルをトラジェクトリインフォームされ、よく校正された正当性信号にコンパイルする。
我々は,MIMIC-IVデータセットから得られた3つの疾患の薬物的臨床診断でGLEANを実証的に検証した。
論文 参考訳(メタデータ) (2026-03-03T09:36:43Z) - A Multi-Agent Framework for Medical AI: Leveraging Fine-Tuned GPT, LLaMA, and DeepSeek R1 for Evidence-Based and Bias-Aware Clinical Query Processing [0.4349324020366305]
大規模言語モデル(LLM)は、医療問題に対する回答を約束するが、臨床的使用は、弱い検証、不十分な証拠の根拠、信頼できない信頼のシグナルによって制限される。
本稿では,補完的なLCMとエビデンス検索,不確実性推定,バイアスチェックを組み合わせて回答信頼性を向上させるマルチエージェント医療QAフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-15T14:17:27Z) - MedKGI: Iterative Differential Diagnosis with Medical Knowledge Graphs and Information-Guided Inquiring [39.776843923694244]
臨床実践を基盤とした診断フレームワークであるMedKGIを提案する。
MedKGI は診断精度と検査効率の両方において強力な LLM ベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2025-12-30T12:31:53Z) - Evolving Diagnostic Agents in a Virtual Clinical Environment [75.59389103511559]
本稿では,大規模言語モデル(LLM)を強化学習を用いた診断エージェントとして訓練するためのフレームワークを提案する。
本手法は対話型探索と結果に基づくフィードバックによって診断戦略を取得する。
DiagAgentはDeepSeek-v3やGPT-4oなど、最先端の10のLLMを著しく上回っている。
論文 参考訳(メタデータ) (2025-10-28T17:19:47Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [69.46279475491164]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - Medical Reasoning in LLMs: An In-Depth Analysis of DeepSeek R1 [0.0]
本研究は、100症例のMedQAを用いて、DeepSeek R1の専門的パターンに対する医学的推論を評価する。
このモデルは、診断精度93%を達成し、鑑別診断、ガイドラインに基づく治療選択、患者固有の因子の統合を通じて、体系的な臨床的判断を実証した。
誤り分析では, バイアスのアンカー, 競合するデータの整合性の課題, 代替案の探索不足, 過剰思考, 知識ギャップ, 中間的治療に対する決定的治療の早期優先順位付けなど, 持続的な限界が認められた。
論文 参考訳(メタデータ) (2025-03-27T09:18:08Z) - Enhancing Diagnostic Accuracy through Multi-Agent Conversations: Using Large Language Models to Mitigate Cognitive Bias [5.421033429862095]
臨床的意思決定における認知的バイアスは、診断の誤りや患者下結果に大きく寄与する。
本研究では,多エージェントフレームワークの利用を通じて,これらのバイアスを軽減するために,大規模言語モデルが果たす役割について検討する。
論文 参考訳(メタデータ) (2024-01-26T01:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。