論文の概要: Strong Reasoning Isn't Enough: Evaluating Evidence Elicitation in Interactive Diagnosis
- arxiv url: http://arxiv.org/abs/2601.19773v1
- Date: Tue, 27 Jan 2026 16:36:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.397037
- Title: Strong Reasoning Isn't Enough: Evaluating Evidence Elicitation in Interactive Diagnosis
- Title(参考訳): 強い推論は不十分:インタラクティブ診断におけるエビデンス・エビデンス・エビデンス・エビデンス・エビデンス・エビデンス・エビデンス・エビデンス・エビデンス・エビデンス・エビデンス・エビデンス・エビデン
- Authors: Zhuohan Long, Zhijie Bao, Zhongyu Wei,
- Abstract要約: インタラクティブな医療相談は、エージェントが不確実性の下で行方不明な臨床証拠を積極的に引き出す必要がある。
既存の評価の大部分は静的あるいは結果中心であり、エビデンス収集プロセスを無視している。
シミュレーションされた患者と、原子的証拠に基づく再現されたレポーターを用いて、コンサルテーションプロセスを明示的にモデル化するインタラクティブな評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.630872344186873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive medical consultation requires an agent to proactively elicit missing clinical evidence under uncertainty. Yet existing evaluations largely remain static or outcome-centric, neglecting the evidence-gathering process. In this work, we propose an interactive evaluation framework that explicitly models the consultation process using a simulated patient and a \rev{simulated reporter} grounded in atomic evidences. Based on this representation, we introduce Information Coverage Rate (ICR) to quantify how completely an agent uncovers necessary evidence during interaction. To support systematic study, we build EviMed, an evidence-based benchmark spanning diverse conditions from common complaints to rare diseases, and evaluate 10 models with varying reasoning abilities. We find that strong diagnostic reasoning does not guarantee effective information collection, and this insufficiency acts as a primary bottleneck limiting performance in interactive settings. To address this, we propose REFINE, a strategy that leverages diagnostic verification to guide the agent in proactively resolving uncertainties. Extensive experiments demonstrate that REFINE consistently outperforms baselines across diverse datasets and facilitates effective model collaboration, enabling smaller agents to achieve superior performance under strong reasoning supervision. Our code can be found at https://github.com/NanshineLoong/EID-Benchmark .
- Abstract(参考訳): インタラクティブな医療相談は、エージェントが不確実性の下で行方不明な臨床証拠を積極的に引き出す必要がある。
しかし、既存の評価は主に静的か結果中心であり、エビデンス収集プロセスを無視している。
本研究では, シミュレーション患者と, 原子的証拠に基づく 'rev{simulated reporter' を用いて, コンサルテーション過程を明示的にモデル化する対話型評価フレームワークを提案する。
この表現に基づいて、エージェントが相互作用中に必要な証拠をいかに完全に発見するかを定量化するために、情報被覆率(ICR)を導入する。
組織的な研究を支援するために,一般的な苦情から稀な疾患まで多様な状況にまたがるエビデンスベースのベンチマークEviMedを構築し,様々な推論能力を持つ10のモデルを評価する。
強力な診断推論は効果的な情報収集を保証しておらず、この不十分性は、対話的な設定における性能を制限する主要なボトルネックとして機能する。
そこで本研究では,不確実性を積極的に解決する手法として,診断検証を活用したREFINEを提案する。
大規模な実験により、REFINEはさまざまなデータセットのベースラインを一貫して上回り、効果的なモデルコラボレーションを促進する。
私たちのコードはhttps://github.com/NanshineLoong/EID-Benchmark で確認できます。
関連論文リスト
- AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - Towards Reliable Medical LLMs: Benchmarking and Enhancing Confidence Estimation of Large Language Models in Medical Consultation [97.36081721024728]
本稿では,現実的な医療相談におけるマルチターンインタラクションの信頼性を評価するための最初のベンチマークを提案する。
本ベンチマークでは,3種類の医療データを統合し,診断を行う。
本稿では,エビデンスを基盤とした言語自己評価フレームワークであるMedConfを紹介する。
論文 参考訳(メタデータ) (2026-01-22T04:51:39Z) - AgentEHR: Advancing Autonomous Clinical Decision-Making via Retrospective Summarization [28.032865974227875]
RetroSumは、レトロスペクティブの要約メカニズムと進化するエクスペリエンス戦略を統合するフレームワークである。
競争ベースラインよりも29.16%のパフォーマンス向上を実現し、全体のインタラクションエラーを92.3%まで大幅に削減した。
論文 参考訳(メタデータ) (2026-01-20T12:48:04Z) - Learning to Seek Evidence: A Verifiable Reasoning Agent with Causal Faithfulness Analysis [10.749786847079163]
医学のような高度な領域におけるAIモデルの説明は、しばしば信頼性を欠いているため、信頼を妨げる可能性がある。
本稿では,対話型エージェントを提案する。
このポリシーは強化学習を用いて最適化され、効率的かつ一般化可能なモデルとなる。
論文 参考訳(メタデータ) (2025-11-03T10:21:35Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Benchmarking and Mitigate Sycophancy in Medical Vision-Language Models [21.353225217216252]
視覚言語モデルは、しばしば、証拠に基づく推論よりも、社会的手がかりや認識された権威を記述したユーザーとの整合性に優先順位を付ける、幻想的行動を示す。
本研究は, 新規な臨床評価基準を用いて, 医用視覚質問応答における臨床症状について検討した。
論文 参考訳(メタデータ) (2025-09-26T07:02:22Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning [60.03671205298294]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現在の方法はまだ、答えの信頼性の制限と解釈性の低下に悩まされている。
この研究はまず、回答を生成するプロセスが中間的推論ステップのシーケンスに先行する領域対応マルチモーダル・チェーン・オブ・ソートデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments [2.567146936147657]
シミュレーションされた臨床環境における大規模言語モデル(LLM)の評価のためのマルチモーダルエージェントベンチマークであるAgentClinicを紹介する。
我々は,AgentClinicの逐次決定形式におけるMedQA問題の解決が極めて困難であることに気付き,診断精度が元の精度の10分の1以下に低下することを発見した。
論文 参考訳(メタデータ) (2024-05-13T17:38:53Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。