論文の概要: RxSafeBench: Identifying Medication Safety Issues of Large Language Models in Simulated Consultation
- arxiv url: http://arxiv.org/abs/2511.04328v1
- Date: Thu, 06 Nov 2025 12:56:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.421542
- Title: RxSafeBench: Identifying Medication Safety Issues of Large Language Models in Simulated Consultation
- Title(参考訳): RxSafeBench:シミュレート・コンサルテーションにおける大規模言語モデルの医療安全問題の特定
- Authors: Jiahao Zhao, Luxin Xu, Minghuan Tan, Lichao Zhang, Ahmadreza Argha, Hamid Alinejad-Rokny, Min Yang,
- Abstract要約: 大規模言語モデル(LLM)は多様な医療タスクにおいて顕著な進歩を遂げた。
しかし、それらの医薬品の安全性に関する研究は、現実世界のデータセットが不足しているため、依然として限られている。
臨床相談をシミュレートし,評価し,LSMの薬剤安全性を体系的に評価する枠組みを提案する。
- 参考スコア(独自算出の注目度): 19.41567007880886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Numerous medical systems powered by Large Language Models (LLMs) have achieved remarkable progress in diverse healthcare tasks. However, research on their medication safety remains limited due to the lack of real world datasets, constrained by privacy and accessibility issues. Moreover, evaluation of LLMs in realistic clinical consultation settings, particularly regarding medication safety, is still underexplored. To address these gaps, we propose a framework that simulates and evaluates clinical consultations to systematically assess the medication safety capabilities of LLMs. Within this framework, we generate inquiry diagnosis dialogues with embedded medication risks and construct a dedicated medication safety database, RxRisk DB, containing 6,725 contraindications, 28,781 drug interactions, and 14,906 indication-drug pairs. A two-stage filtering strategy ensures clinical realism and professional quality, resulting in the benchmark RxSafeBench with 2,443 high-quality consultation scenarios. We evaluate leading open-source and proprietary LLMs using structured multiple choice questions that test their ability to recommend safe medications under simulated patient contexts. Results show that current LLMs struggle to integrate contraindication and interaction knowledge, especially when risks are implied rather than explicit. Our findings highlight key challenges in ensuring medication safety in LLM-based systems and provide insights into improving reliability through better prompting and task-specific tuning. RxSafeBench offers the first comprehensive benchmark for evaluating medication safety in LLMs, advancing safer and more trustworthy AI-driven clinical decision support.
- Abstract(参考訳): LLM(Large Language Models)を利用した医療システムは、多様な医療タスクにおいて顕著な進歩を遂げている。
しかし、それらの医薬品の安全性に関する研究は、プライバシーとアクセシビリティの問題に制約された現実世界のデータセットが不足しているため、依然として限られている。
また,現実的な臨床相談環境におけるLCMの評価,特に薬剤の安全性についてはまだ未検討である。
これらのギャップに対処するために,臨床相談をシミュレートし,評価し,LSMの薬剤安全性能力を体系的に評価する枠組みを提案する。
本枠組みでは, 組込み薬剤のリスクを伴う検査診断対話を生成し, 6,725 の禁忌, 28,781 の薬物相互作用, 14,906 の指示薬対を含む専用医薬品安全データベース RxRisk DB を構築した。
2段階のフィルタリング戦略により臨床リアリズムと専門的品質が保証され、RxSafeBenchベンチマークは2,443の高品質なコンサルティングシナリオを持つ。
患者コンテキストをシミュレートした上で安全な薬剤を推奨する能力を試験するための,構造化された複数の選択質問を用いて,オープンソースおよびプロプライエタリなLPMの評価を行った。
結果から,現在のLLMは,特にリスクが明示的ではなく示唆される場合において,対位法や相互作用の知識の統合に苦慮していることが明らかとなった。
本研究は,LSMシステムにおける医薬品の安全性確保と,より優れたプロンプトとタスク特化チューニングによる信頼性向上に関する洞察を提供する上で,重要な課題を浮き彫りにした。
RxSafeBenchは、LSMにおける医薬品の安全性を評価するための最初の包括的なベンチマークを提供する。
関連論文リスト
- Exploring Membership Inference Vulnerabilities in Clinical Large Language Models [42.52690697965999]
臨床大言語モデル(LLM)におけるメンバーシップ推論脆弱性の探索的研究について述べる。
最新の臨床質問応答モデルであるLlemrを用いて、標準的損失に基づく攻撃とドメインを動機としたパラフレージングに基づく摂動戦略の両方を評価する。
その結果は、コンテキスト認識、ドメイン固有のプライバシ評価、防衛の継続的な開発を動機付けている。
論文 参考訳(メタデータ) (2025-10-21T14:27:48Z) - A Novel Evaluation Benchmark for Medical LLMs: Illuminating Safety and Effectiveness in Clinical Domains [15.73821689524201]
大言語モデル (LLMs) は臨床決定支援において有望であるが、安全性評価と有効性検証において大きな課題に直面している。
臨床専門家のコンセンサスに基づく多次元フレームワークであるCSEDBを開発した。
13名の専門医が, 現実のシナリオをシミュレートする26の臨床部門にまたがって, 2,069件のオープンエンドQ&A項目を作成した。
論文 参考訳(メタデータ) (2025-07-31T12:10:00Z) - Lessons Learned from Evaluation of LLM based Multi-agents in Safer Therapy Recommendation [9.84660526673816]
本研究では,Large Language Model (LLM) を用いたマルチエージェントシステムの有用性と有用性について検討した。
我々は,MDT(Multidisciplinary Team)意思決定をシミュレーションする単一のエージェントとMASフレームワークを設計した。
我々はMAS性能を単エージェントアプローチと実世界のベンチマークと比較した。
論文 参考訳(メタデータ) (2025-07-15T02:01:38Z) - Medical Red Teaming Protocol of Language Models: On the Importance of User Perspectives in Healthcare Settings [48.096652370210016]
本稿では,患者と臨床医の両方の視点で医療領域に適した安全評価プロトコルを提案する。
医療用LLMの安全性評価基準を3つの異なる視点を取り入れたレッドチームで定義した最初の研究である。
論文 参考訳(メタデータ) (2025-07-09T19:38:58Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Can LLMs Support Medical Knowledge Imputation? An Evaluation-Based Perspective [1.4913052010438639]
我々は,Large Language Models (LLMs) を用いて,欠落した治療関係を計算した。
LLMは、知識増強において有望な能力を提供するが、医療知識計算におけるそれらの応用は、重大なリスクをもたらす。
本研究は, 臨床ガイドラインの不整合, 患者の安全性への潜在的なリスクなど, 重大な限界を指摘した。
論文 参考訳(メタデータ) (2025-03-29T02:52:17Z) - A Comprehensive Survey on the Trustworthiness of Large Language Models in Healthcare [8.378348088931578]
医療における大規模言語モデル(LLM)の適用は、臨床意思決定、医学研究、患者医療の強化に大きく貢献する。
実際の臨床環境への統合は、信頼性、特に真理性、プライバシー、安全性、堅牢性、公正性、説明可能性に関する重要な懸念を提起する。
論文 参考訳(メタデータ) (2025-02-21T18:43:06Z) - LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs [78.99703366417661]
大規模言語モデル(LLM)は、手続き的なガイダンスから自律的な実験オーケストレーションまで、タスクをますます支援している。
このような過度な信頼性は、リスク識別やリスクアセスメントの失敗が重大事故を引き起こす高リスクな実験室環境では特に危険である。
実験室安全ベンチマーク (LabSafety Bench) を提案し, 潜在的な危険を識別し, リスクを評価し, 実験室環境における安全でない行動の結果を予測する。
論文 参考訳(メタデータ) (2024-10-18T05:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。