論文の概要: Large language models management of medications: three performance analyses
- arxiv url: http://arxiv.org/abs/2509.22926v1
- Date: Fri, 26 Sep 2025 20:51:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.939729
- Title: Large language models management of medications: three performance analyses
- Title(参考訳): 薬物の大規模言語モデル管理:3つのパフォーマンス分析
- Authors: Kelli Henry, Steven Xu, Kaitlin Blotske, Moriah Cargile, Erin F. Barreto, Brian Murray, Susan Smith, Seth R. Bauer, Yanjun Gao, Tianming Liu, Andrea Sikora,
- Abstract要約: 大規模言語モデル(LLM)は、医学的状態の診断に有用であるが、適切な薬局においてそれらの整合性を評価する研究はほとんどない。
本評価の目的は,GPT-4oを3種類のベンチマーク試験で試験することであった。
- 参考スコア(独自算出の注目度): 7.084613766577707
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Background: Large language models (LLMs) can be useful in diagnosing medical conditions, but few studies have evaluated their consistency in recommending appropriate medication regimens. The purpose of this evaluation was to test GPT-4o on three medication benchmarking tests including mapping a drug name to its correct formulation, identifying drug-drug interactions using both its internal knowledge and using a web search, and preparing a medication order sentence after being given the medication name. Methods: Using GTP-4o three experiments were completed. Accuracy was quantified by computing cosine similarity on TF-IDF vectors, normalized Levenshtein similarity, and ROUGE-1/ROUGE-L F1 between each response and its reference string or by manual evaluation by clinicians. Results: GPT-4o performed poorly on drug-formulation matching, with frequent omissions of available drug formulations (mean 1.23 per medication) and hallucinations of formulations that do not exist (mean 1.14 per medication). Only 49% of tested medications were correctly matched to all available formulations. Accuracy was decreased for medications with more formulations (p<0.0001). GPT-4o was also inconsistent at identifying drug-drug-interactions, although it had better performance with the search-augmented assessment compared to its internal knowledge (54.7% vs. 69.2%, p=0.013). However, allowing a web-search worsened performance when there was no drug-drug interaction (median % correct 100% vs. 40%, p<0.001). Finally, GPT-4o performed moderately with preparing a medication order sentence, with only 65.8% of medication order sentences containing no medication or abbreviation errors. Conclusions: Model performance was overall poor for all tests. This highlights the need for domain-specific training through clinician-annotated datasets and a comprehensive evaluation framework for benchmarking performance.
- Abstract(参考訳): 背景: 大規模言語モデル(LLMs)は, 医学的疾患の診断に有用であるが, 適切な薬物処方を推奨する上で, 整合性を評価する研究は少ない。
本評価の目的は、薬物名と正しい製剤のマッピング、薬物と薬物の相互作用を内部知識とWeb検索の両方を用いて同定すること、医薬品名を付与された後に薬物注文文を作成することを含む3つの薬物ベンチマーク試験において、GPT-4oを試験することであった。
方法: GTP-4oを用いた3つの実験が完了した。
TF-IDFベクトルのコサイン類似性, 正規化レベンシュテイン類似性, ROUGE-1/ROUGE-L F1の各応答と基準文字列間の精度, 臨床医による手動評価により, 精度を定量化した。
結果: GPT-4o は薬物製剤の整合性に乏しく, 薬物製剤の欠失が頻発(薬1回あたり平均 1.23 ), 存在しない製剤の幻覚(薬1回当たり平均 1.14 )であった。
試験薬の49%は、すべての利用可能な定式化と正しく一致した。
製剤を多用した薬の精度は低下した(p<0.0001。
GPT-4oは薬物と薬物の相互作用の同定にも不一致であったが、その内部知識(54.7%対69.2%、p=0.013)と比較して、検索増強評価に優れた性能を示した。
しかし, 薬物と薬物の相互作用がない場合, ウェブ検索を行うことで性能が悪化した(正解率は100%対40%, p<0.001)。
最終的に、GPT-4oは服薬命令文を適度に作成し、薬物命令文の65.8%に服薬や省略誤りは含まれなかった。
結論: すべてのテストにおいて、モデルパフォーマンスは全体的に貧弱でした。
これは、クリニックアノテーション付きデータセットによるドメイン固有のトレーニングの必要性と、パフォーマンスをベンチマークするための包括的な評価フレームワークを強調している。
関連論文リスト
- Validating Pharmacogenomics Generative Artificial Intelligence Query Prompts Using Retrieval-Augmented Generation (RAG) [0.0]
本研究では,大規模言語モデルと検索増強世代(RAG)を利用した医薬ゲノム解析のための人工知能ツールであるSherpa Rxを評価した。
Sherpa Rxは、Pharmacogenomics Knowledgebase (ParmGKB)データとCPICガイドラインを統合し、文脈的に関連する応答を生成する。
26項目のCPICガイドラインにまたがるデータセット (N=260クエリ) を用いて, 薬物と遺伝子相互作用, 投与勧告, 治療効果を検討した。
論文 参考訳(メタデータ) (2025-07-29T02:43:35Z) - Evaluating Large Language Models for Multimodal Simulated Ophthalmic Decision-Making in Diabetic Retinopathy and Glaucoma Screening [37.69303106863453]
大規模言語モデル(LLM)は、自然言語のプロンプトに基づいて臨床推論をシミュレートすることができるが、眼科におけるそれらの有用性はほとんど解明されていない。
本研究は,GPT-4による網膜底写真の構造的記述の解釈能力について検討した。
300点の注釈付き眼底画像を用いた振り返り診断検査を行った。
論文 参考訳(メタデータ) (2025-07-02T01:35:59Z) - MedHallu: A Comprehensive Benchmark for Detecting Medical Hallucinations in Large Language Models [82.30696225661615]
MedHalluは、医学的幻覚検出に特化して設計された最初のベンチマークである。
GPT-4o, Llama-3.1, および医学的に微調整されたUltraMedicalを含む最先端のLSMは、このバイナリ幻覚検出タスクに苦慮している。
双方向の包絡クラスタリングを用いて, 難解な幻覚は, 意味論的に真実に近いことを示す。
論文 参考訳(メタデータ) (2025-02-20T06:33:23Z) - Evaluating the Impact of Lab Test Results on Large Language Models Generated Differential Diagnoses from Clinical Case Vignettes [20.651573628726148]
本研究では,実験結果が大規模言語モデル(LLM)による差分診断に及ぼす影響を評価する。
LLMs GPT-4, GPT-3.5, Llama-2-70b, Claude-2, Mixtral-8x7B を用いてTop 10, Top 5, Top 1 DDx の生成実験を行った。
GPT-4は、トップ1の診断で55%、研究所のデータでトップ10で60%の精度で、精度は80%まで向上した。
肝臓機能、代謝・毒性パネル、血清・免疫検査を含む実験室検査は一般的に正しく解釈された。
論文 参考訳(メタデータ) (2024-11-01T02:48:32Z) - A randomized simulation trial evaluating ABiMed, a clinical decision support system for medication reviews and polypharmacy management [3.8243906257653504]
STOPP/START v2ガイドラインの実装に基づき,臨床診断支援システムであるABiMedを設計した。
ランダム化シミュレーション試験において,39名の薬剤師によるABiMedの評価を行った。
論文 参考訳(メタデータ) (2024-09-03T13:50:59Z) - Neural Bandits for Data Mining: Searching for Dangerous Polypharmacy [63.135687276599114]
一部の多薬局は、不適切とみなされており、死亡や入院などの健康上の有害な結果に関係している可能性がある。
我々は、クレームデータセットを効率的にマイニングし、薬物の組み合わせと健康結果の関係の予測モデルを構築するためのOptimNeuralTS戦略を提案する。
提案手法では,最大72%のPIPを検出でき,平均精度は99%であり,30000タイムステップで検出できる。
論文 参考訳(メタデータ) (2022-12-10T03:43:23Z) - Knowledge-Driven New Drug Recommendation [88.35607943144261]
既存の薬物と新薬のギャップを埋めるために, 薬物依存型マルチフェノタイプ数発学習機を開発した。
EDGEは外部薬効知識ベースを用いて偽陰性監視信号を除去する。
その結果, EDGEは, ROC-AUCスコアよりも7.3%向上していることがわかった。
論文 参考訳(メタデータ) (2022-10-11T16:07:52Z) - Multi-View Substructure Learning for Drug-Drug Interaction Prediction [69.34322811160912]
DDI予測のための新しいマルチビュードラッグサブ構造ネットワーク(MSN-DDI)を提案する。
MSN-DDIは、単一の薬物(イントラビュー)と薬物ペア(インタービュー)の両方の表現から化学的サブ構造を同時に学習し、そのサブ構造を利用して、薬物表現を反復的に更新する。
総合的な評価では、MSN-DDIは、トランスダクティブ・セッティングの下で比較的改善された19.32%と99%以上の精度を達成することで、既存の薬物に対するDDI予測をほぼ解決したことを示している。
論文 参考訳(メタデータ) (2022-03-28T05:44:29Z) - SafeDrug: Dual Molecular Graph Encoders for Safe Drug Recommendations [59.590084937600764]
医薬品の分子構造とDDIのモデルを明確に活用するために、SafeDrugというDDI制御可能な薬物推奨モデルを提案する。
ベンチマークデータセットでは、SafeDrugはDDIを19.43%削減し、Jaccardの推奨薬物と実際に処方された薬物の組み合わせの2.88%を改善します。
論文 参考訳(メタデータ) (2021-05-05T00:20:48Z) - Drug Repurposing for COVID-19 via Knowledge Graph Completion [6.705100803382272]
薬物候補を同定するための新しい,統合的で,ニューラルネットワークに基づく文献ベースの発見(LBD)手法を提案する。
提案手法は,SemRepを用いて抽出したセマンティックトリプルに依存する。
5つのSOTA, 神経知識グラフ補完アルゴリズムを用いて, 薬物再服用候補の予測を行った。
論文 参考訳(メタデータ) (2020-10-19T15:30:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。