論文の概要: OpenMedLM: Prompt engineering can out-perform fine-tuning in medical
question-answering with open-source large language models
- arxiv url: http://arxiv.org/abs/2402.19371v1
- Date: Thu, 29 Feb 2024 17:19:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 13:45:48.537775
- Title: OpenMedLM: Prompt engineering can out-perform fine-tuning in medical
question-answering with open-source large language models
- Title(参考訳): OpenMedLM: Prompt Engineeringは、オープンソースの大規模言語モデルによる医学的質問応答における微調整を上回る
- Authors: Jenish Maharjan, Anurag Garikipati, Navan Preet Singh, Leo Cyrus,
Mayank Sharma, Madalina Ciobanu, Gina Barnes, Rahul Thapa, Qingqing Mao,
Ritankar Das
- Abstract要約: オープンソース(OS)モデルは、医療用LDMにとって重要な成長領域である。
医用ベンチマークでOS LLMに対してSOTA(State-of-the-art)パフォーマンスを提供するプロンプトプラットフォームであるOpenMedLMを提案する。
- 参考スコア(独自算出の注目度): 4.556924372105915
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LLMs have become increasingly capable at accomplishing a range of
specialized-tasks and can be utilized to expand equitable access to medical
knowledge. Most medical LLMs have involved extensive fine-tuning, leveraging
specialized medical data and significant, thus costly, amounts of computational
power. Many of the top performing LLMs are proprietary and their access is
limited to very few research groups. However, open-source (OS) models represent
a key area of growth for medical LLMs due to significant improvements in
performance and an inherent ability to provide the transparency and compliance
required in healthcare. We present OpenMedLM, a prompting platform which
delivers state-of-the-art (SOTA) performance for OS LLMs on medical benchmarks.
We evaluated a range of OS foundation LLMs (7B-70B) on four medical benchmarks
(MedQA, MedMCQA, PubMedQA, MMLU medical-subset). We employed a series of
prompting strategies, including zero-shot, few-shot, chain-of-thought (random
selection and kNN selection), and ensemble/self-consistency voting. We found
that OpenMedLM delivers OS SOTA results on three common medical LLM benchmarks,
surpassing the previous best performing OS models that leveraged
computationally costly extensive fine-tuning. The model delivers a 72.6%
accuracy on the MedQA benchmark, outperforming the previous SOTA by 2.4%, and
achieves 81.7% accuracy on the MMLU medical-subset, establishing itself as the
first OS LLM to surpass 80% accuracy on this benchmark. Our results highlight
medical-specific emergent properties in OS LLMs which have not yet been
documented to date elsewhere, and showcase the benefits of further leveraging
prompt engineering to improve the performance of accessible LLMs for medical
applications.
- Abstract(参考訳): LLMは、様々な専門的なタスクを達成できるようになり、医療知識への公平なアクセスを拡大するために利用することができる。
ほとんどの医療用LSMは、広範囲な微調整を行い、専門的な医療データを活用し、計算能力の大幅な、すなわち費用がかかる。
トップパフォーマンスのLSMの多くはプロプライエタリであり、そのアクセスはごく少数の研究グループに限られている。
しかしながら、オープンソース(os)モデルは、パフォーマンスの大幅な向上と、医療に必要な透明性とコンプライアンスを提供する固有の能力のために、医療llmにとって重要な成長分野である。
我々は,医療ベンチマーク上でOS LLMの最先端(SOTA)パフォーマンスを実現するプロンプトプラットフォームであるOpenMedLMを提案する。
MedQA, MedMCQA, PubMedQA, MMLU 医療サブセットの4つのベンチマークで OS 基盤 LLM (7B-70B) の範囲を評価した。
我々はゼロショット、少数ショット、チェーン・オブ・マインド(ランダム選択とkn選択)、アンサンブル/セルフコンシスタンス投票を含む一連のプロンプト戦略を採用した。
We found that OpenMedLM delivers OS SOTA results on three common medical LLM benchmarks, and over the previous best performing OS model that leverageed computerly costly extensive fine-tuning。
このモデルは、MedQAベンチマークで72.6%の精度を提供し、以前のSOTAよりも2.4%向上し、MMLU医療サブセットで81.7%の精度を達成し、このベンチマークで80%を超える最初のOS LLMとなった。
本研究は,OS LLMの創発的特性について,まだ文書化されていない点に注目し,医療用LLMの性能向上のために,さらなる迅速な工学的活用のメリットを示すものである。
関連論文リスト
- Leveraging Large Language Models for Medical Information Extraction and Query Generation [2.1793134762413433]
本稿では,大言語モデル(LLM)を臨床試験検索プロセスに統合するシステムを提案する。
クエリ生成には6つのLCMを評価し,最小限の計算資源を必要とする,オープンソースと比較的小さなモデルに着目した。
論文 参考訳(メタデータ) (2024-10-31T12:01:51Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - Development and bilingual evaluation of Japanese medical large language model within reasonably low computational resources [0.0]
本稿では,近年の7Bモデルに基づく医療適応について述べる。
日本語医学データセットに基づく英語中心ベースモデルの微調整により,両言語のスコアが向上することが判明した。
論文 参考訳(メタデータ) (2024-09-18T08:07:37Z) - Lightweight Large Language Model for Medication Enquiry: Med-Pal [2.3095351248532268]
大規模言語モデル(LLM)は、患者教育によるデジタルヘルス開発を支援する潜在的ソリューションとして浮上している。
Med-Palは、微細で専門的なキュレートされたデータセットで微調整された、薬物ドメイン固有のLLM-チャットボットである。
論文 参考訳(メタデータ) (2024-07-02T03:32:39Z) - Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - MEDITRON-70B: Scaling Medical Pretraining for Large Language Models [91.25119823784705]
大きな言語モデル(LLM)は、医療知識へのアクセスを民主化することができる。
医療領域に適応した7Bおよび70BパラメータのオープンソースLLMスイートであるMEDITRONをリリースする。
論文 参考訳(メタデータ) (2023-11-27T18:49:43Z) - A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - MKRAG: Medical Knowledge Retrieval Augmented Generation for Medical Question Answering [45.84961106102445]
大規模言語モデル(LLM)は、医療質問応答(QA)のようなドメイン固有のタスクでよく機能しないことが多い。
本稿では,医学的事実を外部知識ベースから抽出し,LLMのクエリプロンプトに注入するための総合的検索手法を提案する。
Vicuna-7Bは44.46%から48.54%の精度向上を示した。
論文 参考訳(メタデータ) (2023-09-27T21:26:03Z) - Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering (Published in Findings of EMNLP 2024) [48.17095875619711]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。
LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。
検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文 参考訳(メタデータ) (2023-09-05T13:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。