論文の概要: ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning
- arxiv url: http://arxiv.org/abs/2512.23440v1
- Date: Mon, 29 Dec 2025 12:58:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.505686
- Title: ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning
- Title(参考訳): ClinDEF: 臨床推論における大規模言語モデルの動的評価フレームワーク
- Authors: Yuqi Tang, Jing Yu, Zichang Su, Kehua Feng, Zhihui Zhu, Libin Wang, Lei Liang, Qiang Zhang, Keyan Ding, Huajun Chen,
- Abstract要約: ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。
本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。
実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
- 参考スコア(独自算出の注目度): 58.01333341218153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical diagnosis begins with doctor-patient interaction, during which physicians iteratively gather information, determine examination and refine differential diagnosis through patients' response. This dynamic clinical-reasoning process is poorly represented by existing LLM benchmarks that focus on static question-answering. To mitigate these gaps, recent methods explore dynamic medical frameworks involving interactive clinical dialogues. Although effective, they often rely on limited, contamination-prone datasets and lack granular, multi-level evaluation. In this work, we propose ClinDEF, a dynamic framework for assessing clinical reasoning in LLMs through simulated diagnostic dialogues. Grounded in a disease knowledge graph, our method dynamically generates patient cases and facilitates multi-turn interactions between an LLM-based doctor and an automated patient agent. Our evaluation protocol goes beyond diagnostic accuracy by incorporating fine-grained efficiency analysis and rubric-based assessment of diagnostic quality. Experiments show that ClinDEF effectively exposes critical clinical reasoning gaps in state-of-the-art LLMs, offering a more nuanced and clinically meaningful evaluation paradigm.
- Abstract(参考訳): 臨床診断は、医師と患者の相互作用から始まり、医師が反復的に情報を収集し、検査を判断し、患者の反応を通じて鑑別診断を洗練する。
このダイナミックな臨床推論プロセスは、静的質問応答に焦点を当てた既存のLCMベンチマークでは不十分である。
これらのギャップを緩和するために、近年の手法は、インタラクティブな臨床対話を含む動的医療の枠組みを探求している。
効果はあるものの、しばしば限定的で汚染しやすいデータセットに頼り、粒度の細かいマルチレベル評価を欠いている。
本研究では,LLMにおける臨床推論をシミュレートされた診断対話を通じて評価する動的フレームワークであるClinDEFを提案する。
本手法は, 疾患知識グラフに基づいて患者を動的に生成し, LLMベースの医師と自動患者エージェントとのマルチターンインタラクションを促進する。
評価プロトコルは, きめ細かな効率解析とルーリックに基づく診断品質評価を組み込むことにより, 診断精度以上のものとなる。
実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈し、よりニュアンスで臨床的に有意義な評価パラダイムを提供することが示された。
関連論文リスト
- AutoMedic: An Automated Evaluation Framework for Clinical Conversational Agents with Medical Dataset Grounding [4.87216588304398]
臨床対話エージェントとして大規模言語モデル(LLM)の自動評価を可能にするマルチエージェントシミュレーションフレームワークであるAutoMedicを紹介する。
AutoMedicは、市販の静的QAデータセットを仮想的な患者プロファイルに変換することで、現実的で臨床に根ざした臨床対話を可能にする。
臨床会話の精度, 効率・ストラテジー, 共感, 堅牢性の多面的評価基準を提供するCARE測定値に基づいて, 種々の臨床会話エージェントの性能を評価する。
論文 参考訳(メタデータ) (2025-12-11T01:25:36Z) - Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Language Agents for Hypothesis-driven Clinical Decision Making with Reinforcement Learning [38.49879425944787]
本稿では,仮説駆動型不確実性認識言語エージェントLA-CDMを用いて,臨床診断のための意思決定をモデル化することを提案する。
LA-CDMは, 正確な仮説生成, 仮説の不確実性推定, 効率的な意思決定という, 臨床的意思決定の重要な側面を目標とした3つの目標を掲げて, LA-CDMを訓練する。
4つの腹部疾患を対象とする実世界のデータセットMIMIC-CDMについて検討した。
論文 参考訳(メタデータ) (2025-06-16T13:32:01Z) - CliBench: A Multifaceted and Multigranular Evaluation of Large Language Models for Clinical Decision Making [16.310913127940857]
我々はMIMIC IVデータセットから開発された新しいベンチマークであるCliBenchを紹介する。
このベンチマークは、臨床診断におけるLSMの能力を包括的かつ現実的に評価する。
臨床診断の熟練度を評価するため,先進LSMのゼロショット評価を行った。
論文 参考訳(メタデータ) (2024-06-14T11:10:17Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。