論文の概要: Human-Level and Beyond: Benchmarking Large Language Models Against Clinical Pharmacists in Prescription Review
- arxiv url: http://arxiv.org/abs/2512.02024v1
- Date: Mon, 17 Nov 2025 08:36:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.414661
- Title: Human-Level and Beyond: Benchmarking Large Language Models Against Clinical Pharmacists in Prescription Review
- Title(参考訳): 臨床薬理士に対する大規模言語モデルのベンチマーク
- Authors: Yan Yang, Mouxiao Bian, Peiling Li, Bingjian Wen, Ruiyao Chen, Kangkun Mao, Xiaojun Ye, Tianbin Li, Pengcheng Chen, Bing Han, Jie Xu, Kaifeng Qiu, Junyan Wu,
- Abstract要約: RxBenchは、一般的な処方薬レビューカテゴリをカバーし、14の頻繁な処方薬エラーを集約する包括的なベンチマークである。
1,150のシングルチョイス、230のマルチチョイス、879のショートアンサーアイテムで構成され、いずれも経験豊富な臨床薬剤師によってレビューされている。
Gemini-2.5-pro-preview-05-06、Grok-4-0709、DeepSeek-R1-0528は一貫して第1階層を形成し、精度と堅牢性の両方で他のモデルを上回った。
- 参考スコア(独自算出の注目度): 9.611501492890461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of large language models (LLMs) has accelerated their integration into clinical decision support, particularly in prescription review. To enable systematic and fine-grained evaluation, we developed RxBench, a comprehensive benchmark that covers common prescription review categories and consolidates 14 frequent types of prescription errors drawn from authoritative pharmacy references. RxBench consists of 1,150 single-choice, 230 multiple-choice, and 879 short-answer items, all reviewed by experienced clinical pharmacists. We benchmarked 18 state-of-the-art LLMs and identified clear stratification of performance across tasks. Notably, Gemini-2.5-pro-preview-05-06, Grok-4-0709, and DeepSeek-R1-0528 consistently formed the first tier, outperforming other models in both accuracy and robustness. Comparisons with licensed pharmacists indicated that leading LLMs can match or exceed human performance in certain tasks. Furthermore, building on insights from our benchmark evaluation, we performed targeted fine-tuning on a mid-tier model, resulting in a specialized model that rivals leading general-purpose LLMs in performance on short-answer question tasks. The main contribution of RxBench lies in establishing a standardized, error-type-oriented framework that not only reveals the capabilities and limitations of frontier LLMs in prescription review but also provides a foundational resource for building more reliable and specialized clinical tools.
- Abstract(参考訳): 大規模言語モデル (LLM) の急速な進歩により, 臨床的意思決定支援への統合が加速した。
RxBenchは、一般的な処方薬レビューカテゴリを網羅し、権威ある薬局基準から引き出された14種類の処方薬エラーを集約する総合的なベンチマークである。
RxBenchは1,150のシングルチョイス、230のマルチチョイス、879のショートアンサーアイテムで構成され、いずれも経験豊富な臨床薬剤師によってレビューされている。
我々は18の最先端LCMをベンチマークし、タスク間のパフォーマンスの明確な階層化を確認した。
特に、Gemini-2.5-pro-preview-05-06、Grok-4-0709、DeepSeek-R1-0528は一貫して第1階層を形成し、精度と堅牢性の両方で他のモデルを上回った。
認可された薬剤師と比較すると、先進的なLSMは特定のタスクにおける人間のパフォーマンスに適合または超える可能性があることが示されている。
さらに,ベンチマーク評価から得られた知見に基づき,中間層モデルを用いた微調整を行った結果,短期質問課題における主目的LLMのパフォーマンスに匹敵する特化モデルが得られた。
RxBenchの主な貢献は、標準化されたエラー型指向のフレームワークを確立することである。
関連論文リスト
- From Scores to Steps: Diagnosing and Improving LLM Performance in Evidence-Based Medical Calculations [45.414878840652115]
大規模言語モデル(LLM)は医療ベンチマークで有望な性能を示した。
しかし、医学的な計算を行う能力は未熟であり、評価も不十分である。
本研究は,臨床信頼性を重視した医療計算評価を再考する。
論文 参考訳(メタデータ) (2025-09-20T09:10:26Z) - MedRepBench: A Comprehensive Benchmark for Medical Report Interpretation [2.3251933592942247]
私たちはMedRepBenchを紹介します。MedRepBenchは、1,900の特定されていない現実の中国の医療レポートから構築された総合的なベンチマークです。
このベンチマークは主に、構造化された医療報告理解のためのエンドツーエンドのVLMを評価するために設計されている。
また、OCR+LLMパイプラインは、高いパフォーマンスにもかかわらず、レイアウトのブラインドネスとレイテンシの問題に悩まされていることも観察した。
論文 参考訳(メタデータ) (2025-08-21T07:52:45Z) - LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [62.00431604976949]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。
我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。
私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文 参考訳(メタデータ) (2025-05-29T16:14:34Z) - ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - BRIDGE: Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text [14.409097921305134]
BRIDGEは、9言語にわたる実世界の臨床データソースから得られた87のタスクからなる包括的なベンチマークである。
8つの主要なタスクタイプを6つの臨床段階と20の代表的な応用でカバーしている。
本結果から, モデルサイズ, 言語, 自然言語処理タスク, 臨床専門分野において, かなりの性能変化が明らかとなった。
論文 参考訳(メタデータ) (2025-04-28T04:13:18Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Development and Testing of a Novel Large Language Model-Based Clinical
Decision Support Systems for Medication Safety in 12 Clinical Specialties [3.963266190903893]
本稿では, 安全な薬剤処方をサポートするために, 臨床診断支援システム (CDSS) として, 新規な検索言語モデル (LLM) フレームワークを導入する。
本研究は、12の異なる医療・外科専門分野の23の臨床ヴィグネットに61のプリスクリプティングエラーシナリオを組み込んだ。
論文 参考訳(メタデータ) (2024-01-29T16:03:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。