論文の概要: Large language models management of medications: three performance analyses
- arxiv url: http://arxiv.org/abs/2509.22926v2
- Date: Tue, 14 Oct 2025 15:32:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 16:45:44.434975
- Title: Large language models management of medications: three performance analyses
- Title(参考訳): 薬物の大規模言語モデル管理:3つのパフォーマンス分析
- Authors: Kelli Henry, Steven Xu, Kaitlin Blotske, Moriah Cargile, Erin F. Barreto, Brian Murray, Susan Smith, Seth R. Bauer, Xingmeng Zhao, Adeleine Tilley, Yanjun Gao, Tianming Liu, Sunghwan Sohn, Andrea Sikora,
- Abstract要約: GPT 4oは3つの薬物管理タスクで試験された。
薬物製剤マッチングの最初の課題として、GPT-4oは、すべての利用可能な製剤に適合するジェネリック医薬品の精度が49%であった。
薬物と薬物の相互作用を識別する第2のタスクでは、DDIペアを識別する精度は54.7%であった。
- 参考スコア(独自算出の注目度): 9.12176336117872
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Purpose: Large language models (LLMs) have proven performance for certain diagnostic tasks, however limited studies have evaluated their consistency in recommending appropriate medication regimens for a given diagnosis. Medication management is a complex task that requires synthesis of drug formulation and complete order instructions for safe use. Here, the performance of GPT 4o, an LLM available with ChatGPT, was tested for three medication management tasks. Methods: GPT-4o performance was tested using three medication tasks: identifying available formulations for a given generic drug name, identifying drug-drug interactions (DDI) for a given medication regimen, and preparing a medication order for a given generic drug name. For each experiment, the models raw text response was captured exactly as returned and evaluated using clinician evaluation in addition to standard LLM metrics, including Term Frequency-Inverse Document Frequency (TF IDF) vectors, normalized Levenshtein similarity, and Recall-Oriented Understudy for Gisting Evaluation (ROUGE 1/ROUGE L F1) between each response and its reference string. Results: For the first task of drug-formulation matching, GPT-4o had 49% accuracy for generic medications being matched to all available formulations, with an average of 1.23 omissions per medication and 1.14 hallucinations per medication. For the second task of drug-drug interaction identification, the accuracy was 54.7% for identifying the DDI pair. For the third task, GPT-4o generated order sentences containing no medication or abbreviation errors in 65.8% of cases. Conclusions: Model performance for basic medication tasks was consistently poor. This evaluation highlights the need for domain-specific training through clinician-annotated datasets and a comprehensive evaluation framework for benchmarking performance.
- Abstract(参考訳): 目的: 大規模言語モデル (LLM) は, 特定の診断タスクにおける性能を実証しているが, 特定の診断に適切な医薬品を推奨することで, 整合性を評価する研究は限られている。
メディケーション管理は薬物製剤の合成と安全な使用のための完全順序指示を必要とする複雑な作業である。
ここでは、ChatGPTで利用可能なLCMであるGPT 4oの性能を3つの薬物管理タスクで検証した。
方法: GPT-4o の評価は, 薬物名について利用可能な製剤の同定, 薬物と薬物の相互作用 (DDI) の同定, 薬物名に対する医薬品の注文作成の3つの方法を用いて行った。
各実験で得られた生テキストの応答は, 標準LDM測定値に加えて, 標準LDM測定値, TF IDFベクトル, 正規化Levenshtein類似度, 試行評価のためのリコール指向アンダースタディ (ROUGE 1/ROUGE L F1) を用いて, 返却された。
結果: GPT-4oは, 医薬品1薬1薬あたり平均1.23回, 幻覚1薬あたり1.14回, 一般用薬に49%の精度で一致した。
薬物と薬物の相互作用を識別する第2のタスクでは、DDIペアを識別する精度は54.7%であった。
第3のタスクでは、GPT-4oは65.8%のケースで薬物や省略誤りを含まない順序文を生成する。
結論: 基礎的薬物処理のモデル性能は一貫して不良であった。
この評価は、臨床アノテーション付きデータセットによるドメイン固有のトレーニングの必要性と、ベンチマークパフォーマンスのための総合的な評価フレームワークを強調している。
関連論文リスト
- Validating Pharmacogenomics Generative Artificial Intelligence Query Prompts Using Retrieval-Augmented Generation (RAG) [0.0]
本研究では,大規模言語モデルと検索増強世代(RAG)を利用した医薬ゲノム解析のための人工知能ツールであるSherpa Rxを評価した。
Sherpa Rxは、Pharmacogenomics Knowledgebase (ParmGKB)データとCPICガイドラインを統合し、文脈的に関連する応答を生成する。
26項目のCPICガイドラインにまたがるデータセット (N=260クエリ) を用いて, 薬物と遺伝子相互作用, 投与勧告, 治療効果を検討した。
論文 参考訳(メタデータ) (2025-07-29T02:43:35Z) - Evaluating Large Language Models for Multimodal Simulated Ophthalmic Decision-Making in Diabetic Retinopathy and Glaucoma Screening [37.69303106863453]
大規模言語モデル(LLM)は、自然言語のプロンプトに基づいて臨床推論をシミュレートすることができるが、眼科におけるそれらの有用性はほとんど解明されていない。
本研究は,GPT-4による網膜底写真の構造的記述の解釈能力について検討した。
300点の注釈付き眼底画像を用いた振り返り診断検査を行った。
論文 参考訳(メタデータ) (2025-07-02T01:35:59Z) - MedHallu: A Comprehensive Benchmark for Detecting Medical Hallucinations in Large Language Models [82.30696225661615]
MedHalluは、医学的幻覚検出に特化して設計された最初のベンチマークである。
GPT-4o, Llama-3.1, および医学的に微調整されたUltraMedicalを含む最先端のLSMは、このバイナリ幻覚検出タスクに苦慮している。
双方向の包絡クラスタリングを用いて, 難解な幻覚は, 意味論的に真実に近いことを示す。
論文 参考訳(メタデータ) (2025-02-20T06:33:23Z) - Evaluating the Impact of Lab Test Results on Large Language Models Generated Differential Diagnoses from Clinical Case Vignettes [20.651573628726148]
本研究では,実験結果が大規模言語モデル(LLM)による差分診断に及ぼす影響を評価する。
LLMs GPT-4, GPT-3.5, Llama-2-70b, Claude-2, Mixtral-8x7B を用いてTop 10, Top 5, Top 1 DDx の生成実験を行った。
GPT-4は、トップ1の診断で55%、研究所のデータでトップ10で60%の精度で、精度は80%まで向上した。
肝臓機能、代謝・毒性パネル、血清・免疫検査を含む実験室検査は一般的に正しく解釈された。
論文 参考訳(メタデータ) (2024-11-01T02:48:32Z) - A randomized simulation trial evaluating ABiMed, a clinical decision support system for medication reviews and polypharmacy management [3.8243906257653504]
STOPP/START v2ガイドラインの実装に基づき,臨床診断支援システムであるABiMedを設計した。
ランダム化シミュレーション試験において,39名の薬剤師によるABiMedの評価を行った。
論文 参考訳(メタデータ) (2024-09-03T13:50:59Z) - Neural Bandits for Data Mining: Searching for Dangerous Polypharmacy [63.135687276599114]
一部の多薬局は、不適切とみなされており、死亡や入院などの健康上の有害な結果に関係している可能性がある。
我々は、クレームデータセットを効率的にマイニングし、薬物の組み合わせと健康結果の関係の予測モデルを構築するためのOptimNeuralTS戦略を提案する。
提案手法では,最大72%のPIPを検出でき,平均精度は99%であり,30000タイムステップで検出できる。
論文 参考訳(メタデータ) (2022-12-10T03:43:23Z) - Knowledge-Driven New Drug Recommendation [88.35607943144261]
既存の薬物と新薬のギャップを埋めるために, 薬物依存型マルチフェノタイプ数発学習機を開発した。
EDGEは外部薬効知識ベースを用いて偽陰性監視信号を除去する。
その結果, EDGEは, ROC-AUCスコアよりも7.3%向上していることがわかった。
論文 参考訳(メタデータ) (2022-10-11T16:07:52Z) - Multi-View Substructure Learning for Drug-Drug Interaction Prediction [69.34322811160912]
DDI予測のための新しいマルチビュードラッグサブ構造ネットワーク(MSN-DDI)を提案する。
MSN-DDIは、単一の薬物(イントラビュー)と薬物ペア(インタービュー)の両方の表現から化学的サブ構造を同時に学習し、そのサブ構造を利用して、薬物表現を反復的に更新する。
総合的な評価では、MSN-DDIは、トランスダクティブ・セッティングの下で比較的改善された19.32%と99%以上の精度を達成することで、既存の薬物に対するDDI予測をほぼ解決したことを示している。
論文 参考訳(メタデータ) (2022-03-28T05:44:29Z) - SafeDrug: Dual Molecular Graph Encoders for Safe Drug Recommendations [59.590084937600764]
医薬品の分子構造とDDIのモデルを明確に活用するために、SafeDrugというDDI制御可能な薬物推奨モデルを提案する。
ベンチマークデータセットでは、SafeDrugはDDIを19.43%削減し、Jaccardの推奨薬物と実際に処方された薬物の組み合わせの2.88%を改善します。
論文 参考訳(メタデータ) (2021-05-05T00:20:48Z) - Drug Repurposing for COVID-19 via Knowledge Graph Completion [6.705100803382272]
薬物候補を同定するための新しい,統合的で,ニューラルネットワークに基づく文献ベースの発見(LBD)手法を提案する。
提案手法は,SemRepを用いて抽出したセマンティックトリプルに依存する。
5つのSOTA, 神経知識グラフ補完アルゴリズムを用いて, 薬物再服用候補の予測を行った。
論文 参考訳(メタデータ) (2020-10-19T15:30:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。