論文の概要: Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.10278v1
- Date: Sat, 11 Oct 2025 16:24:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.872335
- Title: Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models
- Title(参考訳): 大規模言語モデルにおける臨床推論のためのバイバボイス検査のシミュレーション
- Authors: Christopher Chiu, Silviu Pitis, Mihaela van der Schaar,
- Abstract要約: 大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
- 参考スコア(独自算出の注目度): 51.91760712805404
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Clinical reasoning in medicine is a hypothesis-driven process where physicians refine diagnoses from limited information through targeted history, physical examination, and diagnostic investigations. In contrast, current medical benchmarks for large language models (LLMs) primarily assess knowledge recall through single-turn questions, where complete clinical information is provided upfront. To address this gap, we introduce VivaBench, a multi-turn benchmark that evaluates sequential clinical reasoning in LLM agents. Our dataset consists of 1762 physician-curated clinical vignettes structured as interactive scenarios that simulate a (oral) examination in medical training, requiring agents to actively probe for relevant findings, select appropriate investigations, and synthesize information across multiple steps to reach a diagnosis. While current LLMs demonstrate competence in diagnosing conditions from well-described clinical presentations, their performance degrades significantly when required to navigate iterative diagnostic reasoning under uncertainty in our evaluation. Our analysis identified several failure modes that mirror common cognitive errors in clinical practice, including: (1) fixation on initial hypotheses, (2) inappropriate investigation ordering, (3) premature diagnostic closure, and (4) failing to screen for critical conditions. These patterns reveal fundamental limitations in how current LLMs reason and make decisions under uncertainty. Through VivaBench, we provide a standardized benchmark for evaluating conversational medical AI systems for real-world clinical decision support. Beyond medical applications, we contribute to the larger corpus of research on agentic AI by demonstrating how sequential reasoning trajectories can diverge in complex decision-making environments.
- Abstract(参考訳): 医学における臨床推論は、医師が対象とする歴史、身体検査、診断調査を通じて限られた情報から診断を洗練させる仮説駆動のプロセスである。
対照的に、大規模言語モデル(LLMs)の現在の医療ベンチマークは、主に単ターン質問による知識リコールを評価し、完全な臨床情報が事前に提供される。
このギャップに対処するために、LLMエージェントの逐次的臨床推論を評価するマルチターンベンチマークであるVivaBenchを紹介する。
このデータセットは、1762人の医師が編集した臨床ヴィグネットで構成されており、医療訓練における(口頭)検査をシミュレートする対話的なシナリオとして構成されており、エージェントは、関連する発見を積極的に調査し、適切な調査を選択し、診断に到達するために複数のステップにまたがる情報を合成する必要がある。
現状のLCMは, 臨床診断から診断する能力を示すが, 評価の不確実性の下で反復的診断を行うために必要な場合, 性能は著しく低下する。
本分析では,(1)初期仮説の修正,(2)不適切な調査命令,(3)早期診断閉鎖,(4)重症度検査の欠如など,臨床実践における認知異常を反映するいくつかの障害モードを同定した。
これらのパターンは、現在のLCMの理由と不確実性の下での意思決定における根本的な制限を明らかにします。
VivaBenchを通じて、現実の臨床的意思決定支援のための会話型医療AIシステムを評価するための標準化されたベンチマークを提供する。
医療応用以外にも、複雑な意思決定環境において、シーケンシャルな推論軌跡がいかに分散するかを示すことによって、エージェントAIに関するより大きな研究のコーパスに貢献する。
関連論文リスト
- Language Agents for Hypothesis-driven Clinical Decision Making with Reinforcement Learning [38.49879425944787]
本稿では,仮説駆動型不確実性認識言語エージェントLA-CDMを用いて,臨床診断のための意思決定をモデル化することを提案する。
LA-CDMは, 正確な仮説生成, 仮説の不確実性推定, 効率的な意思決定という, 臨床的意思決定の重要な側面を目標とした3つの目標を掲げて, LA-CDMを訓練する。
4つの腹部疾患を対象とする実世界のデータセットMIMIC-CDMについて検討した。
論文 参考訳(メタデータ) (2025-06-16T13:32:01Z) - ER-REASON: A Benchmark Dataset for LLM-Based Clinical Reasoning in the Emergency Room [6.910389029249664]
大規模言語モデル (LLMs) は, ライセンス試験に基づく質問応答タスクにおいて, 広範囲に評価されている。
ER-Reason(ER-Reason)は、救急室におけるLSMに基づく臨床推論と意思決定を評価するために設計されたベンチマークである。
論文 参考訳(メタデータ) (2025-05-28T22:43:44Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Large Language Models are Clinical Reasoners: Reasoning-Aware Diagnosis Framework with Prompt-Generated Rationales [15.362903610463285]
本稿では,素早い学習を通して診断過程を合理化する「推論認識」診断フレームワークを提案する。
そこで本研究では,実世界の臨床環境に対する機械生成的合理化の可能性を評価するための新しい基準セットを提案する。
論文 参考訳(メタデータ) (2023-12-12T16:14:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。