Fugu-MT 論文翻訳(概要): Active Evidence-Seeking and Diagnostic Reasoning in Large Language Models for Clinical Decision Support

論文の概要: Active Evidence-Seeking and Diagnostic Reasoning in Large Language Models for Clinical Decision Support

arxiv url: http://arxiv.org/abs/2605.22047v1
Date: Thu, 21 May 2026 06:34:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-22 16:35:42.118578
Title: Active Evidence-Seeking and Diagnostic Reasoning in Large Language Models for Clinical Decision Support
Title（参考訳）: 臨床診断支援のための大規模言語モデルにおけるアクティブエビデンス検索と診断推論
Authors: Chen Zhan, Xihe Qiu, Xiaoyu Tan, Xibing Zhuang, Gengchen Ma, Yue Zhang, Shuo Li, Peifeng Liu, Xiaoxiao Ge, Liang Liu, Lu Gan,
Abstract要約: 我々はOSCEにインスパイアされた標準化された患者シミュレータと能動的診断のための制御された再現可能なベンチマークを導入する。本プロトコルでは,468症例と15モデルに対して,診断精度を12.75%低下させ,サポートエビデンス品質を24.36%低下させるマルチターンエビデンスを観察した。
参考スコア（独自算出の注目度）: 20.0177310948999
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models perform well on static medical examinations, yet clinical diagnosis often requires iterative evidence gathering under uncertainty. Building on prior interactive evaluation efforts, we introduce an OSCE-inspired standardized patient simulator and a controlled, reproducible benchmark for active diagnostic inquiry. Across 468 cases and 15 models in our protocol, we observe that multi-turn evidence seeking reduces diagnostic accuracy by 12.75% and lowers supporting-evidence quality by 24.36% relative to full-context evaluation; error analyses associate these drops with premature diagnostic closure and inefficient questioning. Together, these results suggest that static full-context benchmarks may overestimate performance in interactive evidence-seeking settings, motivating complementary interactive assessment for safer clinical decision support.
Abstract（参考訳）: 大きな言語モデルは静的な診察でよく機能するが、臨床診断には不確実性の下で収集される反復的な証拠が必要であることが多い。そこで我々は,OSCEにインスパイアされた標準化された患者シミュレータと,能動的診断のための制御された再現可能なベンチマークを導入する。提案プロトコルでは,468例と15例のモデルを用いて,診断精度を12.75%削減し,サポートエビデンス品質を24.36%低下させるマルチターン証拠が得られた。これらの結果から,インタラクティブなエビデンス検索環境において,静的フルコンテクストベンチマークを過大評価し,より安全な臨床診断支援のための相補的インタラクティブアセスメントを動機とする可能性が示唆された。

関連論文リスト

Mind the Rarities: Can Rare Skin Diseases Be Reliably Diagnosed via Diagnostic Reasoning? [31.103598483020857]
大規模視覚言語モデル(LVLM)は皮膚学において強い性能を示す。稀な疾患に対する診断的推論はほとんど未発見のままですこのデータセットには26,030のマルチモーダル画像テキストペアと6,354の臨床的に困難な症例が含まれている。 LVLMをリードするベンチマーク22は、診断精度、鑑別診断、臨床推論に重大な欠陥を呈する。
論文参考訳（メタデータ） (2026-03-19T02:25:36Z)
Strong Reasoning Isn't Enough: Evaluating Evidence Elicitation in Interactive Diagnosis [29.630872344186873]
インタラクティブな医療相談は、エージェントが不確実性の下で行方不明な臨床証拠を積極的に引き出す必要がある。既存の評価の大部分は静的あるいは結果中心であり、エビデンス収集プロセスを無視している。シミュレーションされた患者と、原子的証拠に基づく再現されたレポーターを用いて、コンサルテーションプロセスを明示的にモデル化するインタラクティブな評価フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-27T16:36:35Z)
AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文参考訳（メタデータ） (2026-01-23T11:59:13Z)
ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文参考訳（メタデータ） (2025-12-29T12:58:58Z)
Evolving Diagnostic Agents in a Virtual Clinical Environment [75.59389103511559]
本稿では,大規模言語モデル(LLM)を強化学習を用いた診断エージェントとして訓練するためのフレームワークを提案する。本手法は対話型探索と結果に基づくフィードバックによって診断戦略を取得する。 DiagAgentはDeepSeek-v3やGPT-4oなど、最先端の10のLLMを著しく上回っている。
論文参考訳（メタデータ） (2025-10-28T17:19:47Z)
Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。 LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文参考訳（メタデータ） (2025-10-21T18:10:45Z)
Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文参考訳（メタデータ） (2025-10-11T16:24:35Z)
DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models [25.13622249539088]
diagnosisArenaは、専門レベルの診断能力の厳格な評価のために設計されたベンチマークである。診断アリーナは1,113組のセグメンテーション患者と、28の専門専門医からなる。我々の研究では、最も先進的な推論モデルであるo3、o1、DeepSeek-R1でさえ、それぞれ51.12%、31.09%、17.79%の精度しか達成していないことが明らかになった。
論文参考訳（メタデータ） (2025-05-20T09:14:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。