論文の概要: Employing General-Purpose and Biomedical Large Language Models with Advanced Prompt Engineering for Pharmacoepidemiologic Study Design
- arxiv url: http://arxiv.org/abs/2604.17988v1
- Date: Mon, 20 Apr 2026 09:10:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.784298
- Title: Employing General-Purpose and Biomedical Large Language Models with Advanced Prompt Engineering for Pharmacoepidemiologic Study Design
- Title(参考訳): 薬疫学研究設計のための先端プロンプト工学を用いた汎用・生物医学大言語モデルの利用
- Authors: Xinyao Zhang, Nicole Sonne Heckmann, Manuela Del Castillo Suero, Francesco Paolo Speca, Maurizio Sessa,
- Abstract要約: 市販の汎用LSMは、バイオメディカルLSMよりも医薬疫学的な設計に優れたサポートを提供する。
GPT-4oとDeepSeek-R1はLTMと組み合わせて、正当性スコアの最も高い関連性と論理性を達成した。
- 参考スコア(独自算出の注目度): 1.165082188315519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: The potential of large language models (LLMs) to automate and support pharmacoepidemiologic study design is an emerging area of interest, yet their reliability remains insufficiently characterized. General-purpose LLMs often display inaccuracies, while the comparative performance of specialized biomedical LLMs in this domain remains unknown. Methods: This study evaluated general-purpose LLMs (GPT-4o and DeepSeek-R1) versus biomedically fine-tuned LLMs (QuantFactory/Bio-Medical-Llama-3-8B-GGUF and Irathernotsay/qwen2-1.5B-medical_qa-Finetune) using 46 protocols (2018-2024) from the HMA-EMA Catalogue and Sentinel System. Performance was assessed across relevance, logic of justification, and ontology-code agreement across multiple coding systems using Least-to-Most (LTM) and Active Prompting strategies. Results: GPT-4o and DeepSeek-R1 paired with LTM prompting achieved the highest relevance and logic of justification scores, with GPT-4o-LTM reaching a median relevance score of 4 in 8 of 9 questions for HMA-EMA protocols. Biomedical LLMs showed lower relevance overall and frequently generated insufficient justification. All LLMs demonstrated limited proficiency in ontology-code mapping, although LTM provided the most consistent improvements in reasoning stability. Conclusion: Off-the-shelf general-purpose LLMs currently offer superior support for pharmacoepidemiologic design compared to biomedical LLMs. Prompt strategy strongly influenced LLM performance.
- Abstract(参考訳): 背景: 医薬品疫学研究設計の自動化と支援のための大規模言語モデル (LLM) の可能性は, 新たな関心領域であるが, 信頼性は依然として不十分である。
汎用LSMは不正確であることが多いが、この領域における特殊なバイオメディカルLSMの比較性能はいまだに不明である。
方法: 本研究は, HMA-EMAカタログ・センチネルシステムから46個のプロトコル (2018-2024) を用いて, 汎用LDM (GPT-4o, DeepSeek-R1) とバイオメディカル微調整LDM (QuantFactory/Bio-Medical-Llama-3-8B-GGUF, Irathernotsay/qwen2-1.5B-medical_qa-Finetune) を比較した。
Least-to-Most(LTM)とActive Prompting戦略を用いて、複数のコーディングシステムにおける関連性、正当化の論理、オントロジー・コード・アグリーメントのパフォーマンスを評価した。
結果: GPT-4o と DeepSeek-R1 を LTM と組み合わせることで, HMA-EMA プロトコルの9問中8問中8問中8問中8問で GPT-4o-LTM は正当性スコアの最大値と論理値を得た。
バイオメディカルLSMは総合的に低い相関性を示し, 不十分な正当性を示した。
全てのLSMはオントロジー-コードマッピングの習熟度に限界を示していたが、LCMは推論安定性の最も一貫した改善を提供した。
結論: 市販の汎用LLMは, 現在, バイオメディカルLLMと比較して, 薬剤疫学設計の優れたサポートを提供している。
プロンプト戦略はLLMの性能に強く影響を与えた。
関連論文リスト
- A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。
ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。
本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:48:21Z) - Optimizing Medical Question-Answering Systems: A Comparative Study of Fine-Tuned and Zero-Shot Large Language Models with RAG Framework [0.0]
本稿では,ドメイン固有知識検索とオープンソース LLM を組み合わせたRAG (Research-augmented Generation) ベースの医療QAシステムを提案する。
ローランド適応 (LoRA) を用いて, 最先端のオープンLCM (LLaMA2 と Falcon) を2つ微調整し, 効率的なドメイン特殊化を行う。
我々の微調整LLaMA2モデルはPubMedQAで71.8%の精度を実現し、55.4%のゼロショットベースラインを大幅に改善した。
論文 参考訳(メタデータ) (2025-12-05T16:38:47Z) - BRIDGE: Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text [14.409097921305134]
BRIDGEは、9言語にわたる実世界の臨床データソースから得られた87のタスクからなる包括的なベンチマークである。
8つの主要なタスクタイプを6つの臨床段階と20の代表的な応用でカバーしている。
本結果から, モデルサイズ, 言語, 自然言語処理タスク, 臨床専門分野において, かなりの性能変化が明らかとなった。
論文 参考訳(メタデータ) (2025-04-28T04:13:18Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Lightweight Large Language Model for Medication Enquiry: Med-Pal [2.3095351248532268]
大規模言語モデル(LLM)は、患者教育によるデジタルヘルス開発を支援する潜在的ソリューションとして浮上している。
Med-Palは、微細で専門的なキュレートされたデータセットで微調整された、薬物ドメイン固有のLLM-チャットボットである。
論文 参考訳(メタデータ) (2024-07-02T03:32:39Z) - LLMs in Biomedicine: A study on clinical Named Entity Recognition [42.71263594812782]
大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な汎用性を示す。
本稿では,NERタスクの性能向上戦略について検討する。
提案手法であるDiRAGは,バイオメディカルNERにおけるLDMのゼロショットF1スコアを高めることができる。
論文 参考訳(メタデータ) (2024-04-10T22:26:26Z) - RAmBLA: A Framework for Evaluating the Reliability of LLMs as Assistants in the Biomedical Domain [0.37282630026096586]
本稿では,バイオメディカルLLMアシスタントフレームワークの信頼性評価について紹介する。
バイオメディカル領域において,4つの技術基盤 LLM が信頼性の高いアシスタントとして機能するかどうかを検証した。
論文 参考訳(メタデータ) (2024-03-21T17:30:59Z) - Quantifying Self-diagnostic Atomic Knowledge in Chinese Medical Foundation Model: A Computational Analysis [55.742339781494046]
ファンデーションモデル(FM)は、直接的で効率的な提案を提供することで、ユーザーが検索エンジンを通して自己診断する方法に革命をもたらす可能性がある。
近年の研究では、GPT-4で評価されたFMの品質や、医学試験に合格する能力に焦点が当てられている。
FMの記憶に蓄えられた自己診断的原子知識の程度を定量化する研究はない。
論文 参考訳(メタデータ) (2023-10-18T05:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。