論文の概要: A Real-World Evaluation of LLM Medication Safety Reviews in NHS Primary Care
- arxiv url: http://arxiv.org/abs/2512.21127v1
- Date: Wed, 24 Dec 2025 11:58:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.77365
- Title: A Real-World Evaluation of LLM Medication Safety Reviews in NHS Primary Care
- Title(参考訳): NHSプライマリケアにおけるLCM治療の安全性評価
- Authors: Oliver Normand, Esther Borsi, Mitch Fruin, Lauren E Walker, Jamie Heagerty, Chris C. Holmes, Anthony J Avery, Iain E Buchan, Harry Coppock,
- Abstract要約: 本研究は,NHSプライマリケアデータを用いたLSMベースの医薬品安全性評価システムの最初の評価である。
患者を戦略的に採取し,幅広い臨床複雑性と薬剤の安全性リスクを捉えた。
当システムでは,臨床症状の認識に強い性能を示した。
- 参考スコア(独自算出の注目度): 5.167350493769989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often match or exceed clinician-level performance on medical benchmarks, yet very few are evaluated on real clinical data or examined beyond headline metrics. We present, to our knowledge, the first evaluation of an LLM-based medication safety review system on real NHS primary care data, with detailed characterisation of key failure behaviours across varying levels of clinical complexity. In a retrospective study using a population-scale EHR spanning 2,125,549 adults in NHS Cheshire and Merseyside, we strategically sampled patients to capture a broad range of clinical complexity and medication safety risk, yielding 277 patients after data-quality exclusions. An expert clinician reviewed these patients and graded system-identified issues and proposed interventions. Our primary LLM system showed strong performance in recognising when a clinical issue is present (sensitivity 100\% [95\% CI 98.2--100], specificity 83.1\% [95\% CI 72.7--90.1]), yet correctly identified all issues and interventions in only 46.9\% [95\% CI 41.1--52.8] of patients. Failure analysis reveals that, in this setting, the dominant failure mechanism is contextual reasoning rather than missing medication knowledge, with five primary patterns: overconfidence in uncertainty, applying standard guidelines without adjusting for patient context, misunderstanding how healthcare is delivered in practice, factual errors, and process blindness. These patterns persisted across patient complexity and demographic strata, and across a range of state-of-the-art models and configurations. We provide 45 detailed vignettes that comprehensively cover all identified failure cases. This work highlights shortcomings that must be addressed before LLM-based clinical AI can be safely deployed. It also begs larger-scale, prospective evaluations and deeper study of LLM behaviours in clinical contexts.
- Abstract(参考訳): 大規模言語モデル (LLM) は、しばしば医学ベンチマークで臨床レベルのパフォーマンスに適合または超えるが、実際の臨床データで評価されるものはほとんどない。
本報告では, LLMをベースとした医薬安全検査システムの最初の評価を, NHSプライマリケアデータに基づいて行った。
NHS Cheshire と Merseyside の成人2,125,549 人を対象にした調査を行った。
専門医は、これらの患者を精査し、システム同定の問題と介入を提案した。
当システムでは, 臨床症状の有無(感度100\% [95\% CI 98.2--100], 特異度83.1\% [95\% CI 72.7--90.1])を認識し, 46.9\% [95\% CI 41.1--52.8] のすべての問題と介入を正しく同定した。
失敗分析は、この環境では、主要な失敗メカニズムは、医薬知識の欠如よりもコンテキスト推論であり、不確実性への過度な自信、患者コンテキストを調整せずに標準ガイドラインを適用すること、医療が実際どのように提供されるかの誤解、事実的誤り、プロセス盲点の5つの主要なパターンであることを示している。
これらのパターンは、患者の複雑さと人口層、そして最先端のモデルと構成の範囲に留まった。
特定されたすべての障害ケースを包括的にカバーする、45の詳細なウィグレットを提供します。
この研究は、LSMベースの臨床AIを安全にデプロイする前に対処しなければならない欠点を強調している。
また、より大規模で予測的な評価と、臨床の文脈におけるLCMの行動のより深い研究も求めている。
関連論文リスト
- Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - A Novel Evaluation Benchmark for Medical LLMs: Illuminating Safety and Effectiveness in Clinical Domains [15.73821689524201]
大言語モデル (LLMs) は臨床決定支援において有望であるが、安全性評価と有効性検証において大きな課題に直面している。
臨床専門家のコンセンサスに基づく多次元フレームワークであるCSEDBを開発した。
13名の専門医が, 現実のシナリオをシミュレートする26の臨床部門にまたがって, 2,069件のオープンエンドQ&A項目を作成した。
論文 参考訳(メタデータ) (2025-07-31T12:10:00Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [69.46279475491164]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。