論文の概要: A Decade-Scale Benchmark Evaluating LLMs' Clinical Practice Guidelines Detection and Adherence in Multi-turn Conversations
- arxiv url: http://arxiv.org/abs/2603.25196v1
- Date: Thu, 26 Mar 2026 09:00:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.20082
- Title: A Decade-Scale Benchmark Evaluating LLMs' Clinical Practice Guidelines Detection and Adherence in Multi-turn Conversations
- Title(参考訳): マルチターン会話におけるLCMs臨床実習ガイドラインの検出と適応性評価のためのDcade-Scaleベンチマーク
- Authors: Andong Tan, Shuyu Dai, Jinglu Wang, Fengtao Zhou, Yan Lu, Xi Wang, Yingcong Chen, Can Yang, Shujie Liu, Hao Chen,
- Abstract要約: 大規模言語モデル(LLM)は、医療シナリオにますます多くデプロイされている。
LLMが会話中に臨床ガイドラインを特定・遵守できるのかは不明確である。
CPGBenchは、LSMの臨床ガイドラインの検出と付着能力をベンチマークする自動フレームワークである。
- 参考スコア(独自算出の注目度): 60.2076951536797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clinical practice guidelines (CPGs) play a pivotal role in ensuring evidence-based decision-making and improving patient outcomes. While Large Language Models (LLMs) are increasingly deployed in healthcare scenarios, it is unclear to which extend LLMs could identify and adhere to CPGs during conversations. To address this gap, we introduce CPGBench, an automated framework benchmarking the clinical guideline detection and adherence capabilities of LLMs in multi-turn conversations. We collect 3,418 CPG documents from 9 countries/regions and 2 international organizations published in the last decade spanning across 24 specialties. From these documents, we extract 32,155 clinical recommendations with corresponding publication institute, date, country, specialty, recommendation strength, evidence level, etc. One multi-turn conversation is generated for each recommendation accordingly to evaluate the detection and adherence capabilities of 8 leading LLMs. We find that the 71.1%-89.6% recommendations can be correctly detected, while only 3.6%-29.7% corresponding titles can be correctly referenced, revealing the gap between knowing the guideline contents and where they come from. The adherence rates range from 21.8% to 63.2% in different models, indicating a large gap between knowing the guidelines and being able to apply them. To confirm the validity of our automatic analysis, we further conduct a comprehensive human evaluation involving 56 clinicians from different specialties. To our knowledge, CPGBench is the first benchmark systematically revealing which clinical recommendations LLMs fail to detect or adhere to during conversations. Given that each clinical recommendation may affect a large population and that clinical applications are inherently safety critical, addressing these gaps is crucial for the safe and responsible deployment of LLMs in real world clinical practice.
- Abstract(参考訳): 臨床実践ガイドライン(CPG)は、エビデンスに基づく意思決定を確実にし、患者の成果を改善する上で重要な役割を担っている。
大きな言語モデル(LLM)は医療のシナリオにますます導入されているが、LLMの拡張が会話中にCPGを識別し、準拠するかどうかは不明だ。
このギャップに対処するために,マルチターン会話におけるLCMの臨床的ガイドライン検出とアテンデンス能力のベンチマークを行う自動フレームワークであるCPGBenchを紹介する。
我々は過去10年間に24の専門分野にまたがる9カ国・地域と2つの国際機関から3,418件のCPG文書を収集している。
これらの資料から、対応する出版機関、日付、国、専門性、推薦力、証拠レベル等で32,155の臨床勧告を抽出する。
8つのLLMの検出と定着能力を評価するため、レコメンデーション毎に1つのマルチターン会話を生成する。
71.1%-89.6%の推奨は正しく検出できるが、対応するタイトルは3.6%-29.7%しか正しく参照できない。
付着率は、異なるモデルで21.8%から63.2%の範囲であり、ガイドラインを知ることとそれらを適用することの間に大きなギャップがあることを示している。
自動分析の有効性を確認するため,異なる専門分野の56名の臨床医を対象とした総合的な人的評価を行った。
我々の知る限り、CPGBenchは、LLMが会話中の検出や定着に失敗する臨床勧告を体系的に明らかにする最初のベンチマークである。
各臨床勧告が人口に影響を及ぼし、臨床応用が本質的に安全に重要であることを考えると、これらのギャップに対処することは、現実の臨床実践におけるLLMの安全かつ責任ある展開に不可欠である。
関連論文リスト
- Evolving Diagnostic Agents in a Virtual Clinical Environment [75.59389103511559]
本稿では,大規模言語モデル(LLM)を強化学習を用いた診断エージェントとして訓練するためのフレームワークを提案する。
本手法は対話型探索と結果に基づくフィードバックによって診断戦略を取得する。
DiagAgentはDeepSeek-v3やGPT-4oなど、最先端の10のLLMを著しく上回っている。
論文 参考訳(メタデータ) (2025-10-28T17:19:47Z) - A Novel Evaluation Benchmark for Medical LLMs: Illuminating Safety and Effectiveness in Clinical Domains [15.73821689524201]
大言語モデル (LLMs) は臨床決定支援において有望であるが、安全性評価と有効性検証において大きな課題に直面している。
臨床専門家のコンセンサスに基づく多次元フレームワークであるCSEDBを開発した。
13名の専門医が, 現実のシナリオをシミュレートする26の臨床部門にまたがって, 2,069件のオープンエンドQ&A項目を作成した。
論文 参考訳(メタデータ) (2025-07-31T12:10:00Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - oRetrieval Augmented Generation for 10 Large Language Models and its Generalizability in Assessing Medical Fitness [4.118721833273984]
大規模言語モデル(LLM)は医学的応用の可能性を示すが、専門的な臨床知識が欠如していることが多い。
Retrieval Augmented Generation (RAG)は、ドメイン固有の情報によるカスタマイズを可能にし、医療に適している。
本研究は,手術適応の判定と術前指導におけるRAGモデルの精度,整合性,安全性について検討した。
論文 参考訳(メタデータ) (2024-10-11T00:34:20Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Clinical Camel: An Open Expert-Level Medical Language Model with
Dialogue-Based Knowledge Encoding [31.884600238089405]
臨床研究に適したオープン・大型言語モデル(LLM)であるクリニカル・カメルについて述べる。
QLoRAを用いてLLaMA-2を微調整し,医療用LCMの医療用ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-05-19T23:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。