論文の概要: RxEval: A Prescription-Level Benchmark for Evaluating LLM Medication Recommendation
- arxiv url: http://arxiv.org/abs/2605.14543v1
- Date: Thu, 14 May 2026 08:24:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.712068
- Title: RxEval: A Prescription-Level Benchmark for Evaluating LLM Medication Recommendation
- Title(参考訳): RxEval: LLM治療勧告の評価のための定式レベルベンチマーク
- Authors: Shuhao Chen, Weisen Jiang, Changmiao Wang, Xiaoqing Wu, Xuanren Shi, Yu Zhang, James T. Kwok,
- Abstract要約: 既存のベンチマークでは、実際のプリスクライブのタイムポイント当たりの情報豊富な性質を捉えられません。
提案するRxEvalは,複数問合せによるLCM処方能力の評価を行う処方料レベルベンチマークである。
RxEvalは、患者584人、診断カテゴリー18人、ユニークな薬物969人を対象にした1,547の質問からなる。
- 参考スコア(独自算出の注目度): 32.57101246457044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inpatient medication recommendation requires clinicians to repeatedly select specific medications, doses, and routes as a patient's condition evolves. Existing benchmarks formulate this task as admission-level prediction over coarse drug codes with multi-hot diagnostic and procedure code inputs, failing to capture the per-timepoint, information-rich nature of real prescribing. We propose RxEval, a prescription-level benchmark that evaluates LLM prescribing capability by multiple-choice questions: each question presents a detailed patient profile and time-ordered clinical trajectory, requiring selection of specific medication-dose-route triples from real prescriptions and patient-specific distractors generated via reasoning-chain perturbation. RxEval comprises 1,547 questions spanning 584 patients, 18 diagnostic categories, and 969 unique medications. Evaluation of 16 LLMs shows that RxEval is both challenging and discriminative: F1 ranges from 45.18 to 77.10 across models, and the best Exact Match is only 46.10%. Error analysis reveals that even frontier models may overlook stated patient information and fail to derive clinical conclusions.
- Abstract(参考訳): 臨床医は患者の症状が進行するにつれて、特定の薬、服薬、ルートを何度も選択する必要がある。
既存のベンチマークでは、このタスクをマルチホット診断とプロシージャコード入力による粗い薬物コードに対する入場レベルの予測として定式化しており、実際の処方のタイムポイント当たりの情報豊富な性質を捉えていない。
それぞれの質問は詳細な患者プロファイルと時間順の臨床的軌跡を示し、実際の処方薬から特定の服薬用量3倍と、推論鎖の摂動によって生成される患者特異的な気道の選別を必要とする。
RxEvalは、患者584人、診断カテゴリー18人、ユニークな薬物969人を対象にした1,547の質問からなる。
16のLLMの評価によると、RxEvalは挑戦的かつ差別的であり、F1は45.18から77.10の範囲で、最も優れたExact Matchは46.10%である。
エラー分析は、フロンティアモデルでさえ、患者の情報を見落とし、臨床結果の導出に失敗する可能性があることを示している。
関連論文リスト
- Benchmarking Multi-turn Medical Diagnosis: Hold, Lure, and Self-Correction [72.89352076103889]
大規模言語モデル (LLM) は, 臨床情報がすべて一ターンで提供される場合に, 高い精度で診断を行う。
1,035例からなる高忠実多ターン診断ベンチマークであるMINTを導入する。
診断決定に大きな影響を及ぼす3つの永続的な行動パターンを明らかにする。
論文 参考訳(メタデータ) (2026-04-06T00:23:10Z) - PACE-RAG: Patient-Aware Contextual and Evidence-based Policy RAG for Clinical Drug Recommendation [40.19067516813213]
PACE-RAG (Patient-Aware Contextual and Evidence-based Policy RAG) は、患者個別のコンテキストを類似事例の処方傾向で合成する新しいフレームワークである。
PACE-RAGは、特定の臨床信号に合わせた治療パターンを解析することにより、最適な処方薬を特定し、説明可能な臨床概要を生成する。
論文 参考訳(メタデータ) (2026-03-18T04:40:53Z) - Human-Level and Beyond: Benchmarking Large Language Models Against Clinical Pharmacists in Prescription Review [9.611501492890461]
RxBenchは、一般的な処方薬レビューカテゴリをカバーし、14の頻繁な処方薬エラーを集約する包括的なベンチマークである。
1,150のシングルチョイス、230のマルチチョイス、879のショートアンサーアイテムで構成され、いずれも経験豊富な臨床薬剤師によってレビューされている。
Gemini-2.5-pro-preview-05-06、Grok-4-0709、DeepSeek-R1-0528は一貫して第1階層を形成し、精度と堅牢性の両方で他のモデルを上回った。
論文 参考訳(メタデータ) (2025-11-17T08:36:53Z) - VinDr-CXR-VQA: A Visual Question Answering Dataset for Explainable Chest X-Ray Analysis with Multi-Task Learning [3.4998703934432682]
VinDr-CXR-VQA(VinDr-CXR-VQA)は、医用視覚質問応答(Med-VQA)のための大規模胸部X線データセットである。
データセットには4,394枚の画像からなる17,597枚の質問応答対が含まれており、それぞれに放射線技師が検証した境界ボックスと臨床理由説明が注釈付けされている。
論文 参考訳(メタデータ) (2025-11-01T11:17:44Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports [49.00805568780791]
MedCaseReasoningはLarge Language Models(LLM)を評価するための最初のオープンアクセスデータセットである。
データセットには14,489の診断的質問・回答ケースが含まれており、それぞれに詳細な推論文がペアリングされている。
我々は,MedCaseReasoning上での最先端の推論LPMを評価し,診断と推論に重大な欠点を見出した。
論文 参考訳(メタデータ) (2025-05-16T22:34:36Z) - Natural Language-Assisted Multi-modal Medication Recommendation [97.07805345563348]
NLA-MMR(Natural Language-Assisted Multi-modal Medication Recommendation)を紹介する。
NLA-MMRは、患者視点から知識を学習し、医薬視点を共同で学習するために設計されたマルチモーダルアライメントフレームワークである。
本稿では,プレトレーニング言語モデル(PLM)を用いて,患者や医薬品に関するドメイン内知識を抽出する。
論文 参考訳(メタデータ) (2025-01-13T09:51:50Z) - Development and Testing of a Novel Large Language Model-Based Clinical
Decision Support Systems for Medication Safety in 12 Clinical Specialties [3.963266190903893]
本稿では, 安全な薬剤処方をサポートするために, 臨床診断支援システム (CDSS) として, 新規な検索言語モデル (LLM) フレームワークを導入する。
本研究は、12の異なる医療・外科専門分野の23の臨床ヴィグネットに61のプリスクリプティングエラーシナリオを組み込んだ。
論文 参考訳(メタデータ) (2024-01-29T16:03:29Z) - LongHealth: A Question Answering Benchmark with Long Clinical Documents [36.05587855811346]
各種疾患20例を対象とし,LongHealthベンチマークを報告する。
このベンチマークは、情報抽出、否定、ソートという3つのカテゴリで400の多重選択の質問でLSMに挑戦する。
また,OpenAIのプロプライエタリかつコスト効率のよいGPT-3.5 Turboも比較検討した。
論文 参考訳(メタデータ) (2024-01-25T19:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。