論文の概要: DrugRAG: Enhancing Pharmacy LLM Performance Through A Novel Retrieval-Augmented Generation Pipeline
- arxiv url: http://arxiv.org/abs/2512.14896v1
- Date: Tue, 16 Dec 2025 20:19:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.782122
- Title: DrugRAG: Enhancing Pharmacy LLM Performance Through A Novel Retrieval-Augmented Generation Pipeline
- Title(参考訳): DrugRAG:新しい検索機能付きジェネレーションパイプラインによる薬局LLM性能の向上
- Authors: Houman Kazemzadeh, Kiarash Mokhtari Dizaji, Seyed Reza Tavakoli, Farbod Davoodi, MohammadReza KarimiNejad, Parham Abed Azad, Ali Sabzi, Armin Khosravi, Siavash Ahmadi, Mohammad Hossein Rohban, Glolamali Aminian, Tahereh Javaheri,
- Abstract要約: 141クエスト薬局データセットを用いて,11種類の既存大規模言語モデル (LLM) のパラメータサイズをベンチマークした。
我々は、3段階の検索拡張世代(RAG)パイプラインであるD薬RAGを開発し、検証された情報源から構造化された薬物知識を検索し、エビデンスベースの文脈で促進する。
DrugRAGは全テストモデルで精度を向上し、141-itemベンチマークでは7から21ポイント(Gemma 3 27B:61%から71%、Llama 3.1 8B:46%から67%)まで上昇した。
- 参考スコア(独自算出の注目度): 4.750574899254107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Objectives: To evaluate large language model (LLM) performance on pharmacy licensure-style question-answering (QA) tasks and develop an external knowledge integration method to improve their accuracy. Methods: We benchmarked eleven existing LLMs with varying parameter sizes (8 billion to 70+ billion) using a 141-question pharmacy dataset. We measured baseline accuracy for each model without modification. We then developed a three-step retrieval-augmented generation (RAG) pipeline, DrugRAG, that retrieves structured drug knowledge from validated sources and augments model prompts with evidence-based context. This pipeline operates externally to the models, requiring no changes to model architecture or parameters. Results: Baseline accuracy ranged from 46% to 92%, with GPT-5 (92%) and o3 (89%) achieving the highest scores. Models with fewer than 8 billion parameters scored below 50%. DrugRAG improved accuracy across all tested models, with gains ranging from 7 to 21 percentage points (e.g., Gemma 3 27B: 61% to 71%, Llama 3.1 8B: 46% to 67%) on the 141-item benchmark. Conclusion: We demonstrate that external structured drug knowledge integration through DrugRAG measurably improves LLM accuracy on pharmacy tasks without modifying the underlying models. This approach provides a practical pipeline for enhancing pharmacy-focused AI applications with evidence-based information.
- Abstract(参考訳): 目的: 薬局ライセンス型質問応答(QA)タスクにおける大規模言語モデル(LLM)の性能を評価し, 精度を向上させるための外部知識統合手法を開発する。
方法:141クエスト薬局データセットを用いて,パラメータサイズ(80億~70億以上)の異なる11の既存LSMをベンチマークした。
修正せずに各モデルのベースライン精度を測定した。
そこで我々は、3段階の検索拡張世代(RAG)パイプラインであるD薬RAGを開発し、検証された情報源から構造化された薬物知識を抽出し、エビデンスベースの文脈で促進する。
このパイプラインはモデル外部で動作し、モデルアーキテクチャやパラメータを変更する必要はない。
結果: ベースライン精度は, GPT-5 (92%), o3 (89%) の46%から92%であった。
パラメータが80億未満のモデルは50%以下である。
DrugRAGは全テストモデルで精度を改善し、141-itemベンチマークでは7から21ポイント(Gemma 3 27B:61%から71%、Llama 3.1 8B:46%から67%)まで上昇した。
結論: 薬物RAGによる外的構造化薬物知識の統合は, 基礎となるモデルを変更することなく, 薬局業務におけるLCMの精度を向上させることが実証された。
このアプローチは、エビデンスベースの情報で薬局に焦点を当てたAIアプリケーションを強化するための実践的なパイプラインを提供する。
関連論文リスト
- Grounding Large Language Models in Clinical Evidence: A Retrieval-Augmented Generation System for Querying UK NICE Clinical Guidelines [1.9615061725959186]
本稿では,Large Language Models (LLMs) を用いたNICE (National Institute for Health and Care Excellence) 臨床ガイドラインを検索するための検索型生成システムの開発と評価について述べる。
このシステムの検索アーキテクチャは,300のガイドラインから抽出した10,195個のテキストチャンクのデータベースに対して,ハイブリッドな埋め込み機構によって構成されている。
平均相反ランク(MRR)が0.814、第1チャンクで81%、検索チャンクで99.1%のリコールが7901クエリで評価されている。
論文 参考訳(メタデータ) (2025-10-03T12:57:13Z) - GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models [194.64264251080454]
GLM-4.5はオープンソースのMixture-of-Experts(MoE)大言語モデルであり,総パラメータは355B,アクティベートパラメータは32Bである。
23Tトークンのマルチステージトレーニングと、エキスパートモデルのイテレーションと強化学習による総合的なポストトレーニングを通じて、GLM-4.5はエージェント、推論、コーディングタスクにわたって強力なパフォーマンスを実現している。
GLM-4.5(355Bパラメータ)とGLM-4.5-Air(106Bパラメータ)をそれぞれリリースし、推論とエージェントAIシステムの研究を進めた。
論文 参考訳(メタデータ) (2025-08-08T17:21:06Z) - Retrieval Augmented Large Language Model System for Comprehensive Drug Contraindications [0.0]
大規模言語モデル(LLM)の汎用性は、様々な分野にわたって検討されてきたが、医療への応用には課題がある。
本研究では,レトリーバル拡張生成(RAG)パイプラインを実装することにより,LLMの対位法に効果的に対応する能力を高める。
論文 参考訳(メタデータ) (2025-08-08T09:09:03Z) - DrugPilot: LLM-based Parameterized Reasoning Agent for Drug Discovery [54.79763887844838]
大規模言語モデル(LLM)と自律エージェントの統合は、自動推論とタスク実行を通じて科学的発見を促進する大きな可能性を秘めている。
本稿では,薬物発見におけるエンドツーエンド科学のために設計されたパラメータ化推論アーキテクチャを備えたLSMベースのエージェントシステムであるDrarmPilotを紹介する。
DrugPilot は ReAct や LoT のような最先端のエージェントよりも優れており、タスク完了率は98.0%、93.5%、64.0%である。
論文 参考訳(メタデータ) (2025-05-20T05:18:15Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - LLMs for Drug-Drug Interaction Prediction: A Comprehensive Comparison [3.2627279988912194]
大規模言語モデル (LLM) は様々な領域に革命をもたらしたが、薬学研究におけるその可能性はほとんど解明されていない。
本研究は薬物と薬物の相互作用(DDI)を予測するLLMの機能について徹底的に研究する。
プロプライエタリモデル(GPT-4, Claude, Gemini)やオープンソースモデル(1.5Bから72Bパラメータ)を含む18種類のLCMを評価した。
微調整のLLMは優れた性能を示し、Phi-3.5 2.7BはDDI予測において0.978の感度を達成し、バランスの取れたデータセットでは0.919の精度を実現した。
論文 参考訳(メタデータ) (2025-02-09T09:58:12Z) - Ambient AI Scribing Support: Comparing the Performance of Specialized AI Agentic Architecture to Leading Foundational Models [0.0]
Sporo HealthのAI Scribeは、医療用スクラブ用に微調整されたプロプライエタリなモデルである。
臨床医が提供したSOAPノートを基礎的事実として, パートナー診療所の非特定患者記録を分析した。
スポロは全てのモデルに勝り、最高リコール(73.3%)、精度(78.6%)、F1スコア(75.3%)を最低パフォーマンス差で達成した。
論文 参考訳(メタデータ) (2024-11-11T04:45:48Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - Development and Testing of Retrieval Augmented Generation in Large
Language Models -- A Case Study Report [2.523433459887027]
Retrieval Augmented Generation (RAG)は、大規模言語モデル(LLM)におけるドメイン知識をカスタマイズするための有望なアプローチとして出現する。
LLM-RAGモデルを35の術前ガイドラインを用いて開発し,人為的反応に対して試験を行った。
このモデルでは平均15~20秒で回答が生成され、人間の要求する10分よりもはるかに速くなった。
論文 参考訳(メタデータ) (2024-01-29T06:49:53Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter
Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。
その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文 参考訳(メタデータ) (2022-06-15T20:44:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。