論文の概要: Me LLaMA: Foundation Large Language Models for Medical Applications
- arxiv url: http://arxiv.org/abs/2402.12749v2
- Date: Mon, 11 Mar 2024 04:04:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 13:58:16.159310
- Title: Me LLaMA: Foundation Large Language Models for Medical Applications
- Title(参考訳): Me LLaMA:医療応用のための基礎的な大規模言語モデル
- Authors: Qianqian Xie, Qingyu Chen, Aokun Chen, Cheng Peng, Yan Hu, Fongci Lin,
Xueqing Peng, Jimin Huang, Jeffrey Zhang, Vipina Keloth, Xingyu Zhou, Huan
He, Lucila Ohno-Machido, Yonghui Wu, Hua Xu, Jiang Bian
- Abstract要約: 本研究は,基礎モデルであるMe LLaMA 13/70Bとチャット強化バージョンであるMe LLaMA 13/70B-chatを含む医療用LLMファミリーであるMe LLaMAを紹介する。
トレーニングと評価のためのドメイン固有のデータスイートには、129Bトークンを備えた大規模で連続的な事前トレーニングデータセットが含まれています。
Me LLaMAモデルは、ゼロショット、少数ショット、教師あり学習能力において、既存のオープンソース医療用LLMよりも全体的なパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 36.75939124670779
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent large language models (LLMs) such as ChatGPT and LLaMA have shown
great promise in many AI applications. However, their performance on medical
tasks is suboptimal and can be improved by training on extensive
domain-specific datasets. This study introduces Me LLaMA, a medical LLM family
that includes foundation models - Me LLaMA 13/70B, along with their
chat-enhanced versions - Me LLaMA 13/70B-chat, developed through continual
pre-training and instruction tuning of LLaMA2 using large medical datasets. Our
domain-specific data suite for training and evaluation includes a large-scale,
continual pre-training dataset with 129B tokens, an instruction tuning dataset
with 214k samples, and a new medical evaluation benchmark (MIBE) across six
tasks with 12 datasets. Our extensive evaluation using the MIBE shows that Me
LLaMA models achieve overall better performance than existing open-source
medical LLMs in zero-shot, few-shot and supervised learning abilities. Their
zero-shot performance is comparable with ChatGPT across 7 out of 8 datasets,
with a slight variance of within 3%, and yet falls short when compared to
GPT-4. In addition, we investigated the catastrophic forgetting problem, and
our results show that Me LLaMA models outperform other open-source medical LLMs
in mitigating this issue. Me LLaMA is one of the largest open-source medical
foundation LLMs that use both biomedical and clinical data. It exhibits
superior performance across both general and medical tasks compared to other
open-source medical LLMs, rendering it an attractive choice for medical AI
applications. We release our models, datasets, and evaluation scripts at:
https://github.com/BIDS-Xu-Lab/Me-LLaMA.
- Abstract(参考訳): ChatGPTやLLaMAといった最近の大規模言語モデル(LLM)は多くのAIアプリケーションで大きな可能性を示している。
しかし、医療タスクにおけるそれらのパフォーマンスは最適以下であり、広範なドメイン固有のデータセットのトレーニングによって改善することができる。
本研究では,Me LLaMA 13/70B,Me LLaMA 13/70B-chat,Me LLaMA 13/70B-chatなどの基礎モデルを含む医療用LLMファミリーについて紹介する。
トレーニングと評価のためのドメイン固有のデータスイートには、129Bトークンによる大規模で連続的な事前トレーニングデータセット、214kサンプルによる命令チューニングデータセット、12データセットによる6つのタスクにわたる新しい医療評価ベンチマーク(MIBE)が含まれている。
MIBEを用いた広範囲な評価により,Me LLaMAモデルは,ゼロショット,少数ショット,教師あり学習能力において,既存のオープンソース医療用LLMよりも総合的に優れた性能を発揮することが示された。
ゼロショットのパフォーマンスは、8つのデータセットのうち7つにまたがるChatGPTに匹敵する。
さらに, 破滅的な忘れ込み問題を検討した結果, Me LLaMAモデルは, 他のオープンソース医療用LLMよりも優れており, この問題を緩和していることがわかった。
Me LLaMAは、バイオメディカルデータと臨床データの両方を使用する、最大のオープンソース医療財団の1つである。
他のオープンソース医療用LLMと比較して、一般的なタスクと医療タスクの両方で優れたパフォーマンスを示しており、医療AIアプリケーションにとって魅力的な選択である。
モデル、データセット、評価スクリプトをhttps://github.com/BIDS-Xu-Lab/Me-LLaMAでリリースします。
関連論文リスト
- Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.2263444492222]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - OpenMedLM: Prompt engineering can out-perform fine-tuning in medical
question-answering with open-source large language models [4.556924372105915]
オープンソース(OS)モデルは、医療用LDMにとって重要な成長領域である。
医用ベンチマークでOS LLMに対してSOTA(State-of-the-art)パフォーマンスを提供するプロンプトプラットフォームであるOpenMedLMを提案する。
論文 参考訳(メタデータ) (2024-02-29T17:19:39Z) - Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - MEDITRON-70B: Scaling Medical Pretraining for Large Language Models [91.25119823784705]
大きな言語モデル(LLM)は、医療知識へのアクセスを民主化することができる。
医療領域に適応した7Bおよび70BパラメータのオープンソースLLMスイートであるMEDITRONをリリースする。
論文 参考訳(メタデータ) (2023-11-27T18:49:43Z) - A Survey of Large Language Models in Medicine: Progress, Application,
and Challenge [86.4234483148876]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - AlpaCare:Instruction-tuned Large Language Models for Medical Application [23.697610908951443]
GPT-4 と ChatGPT を用いた多種多様な医療用 IFT データセット MedInstruct-52k の作成を提案する。
次に、データセット上のLLaMA系列モデルを微調整してAlpaCareを開発する。
ドメイン固有のデータセットが小さいにもかかわらず、AlpaCareは医療アプリケーションで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-10-23T04:22:50Z) - Augmenting Black-box LLMs with Medical Textbooks for Clinical Question
Answering [54.13933019557655]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。
LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。
検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文 参考訳(メタデータ) (2023-09-05T13:39:38Z) - Multimodal LLMs for health grounded in individual-specific data [1.8473477867376036]
基礎となる大規模言語モデル(LLM)は、健康を含む幅広い分野のタスクを解く素晴らしい能力を示している。
我々は、個人固有のデータに基づいて、健康のためのマルチモーダルLSMを作成するための一歩を踏み出した。
我々は,HLMが高次元時系列データに加えて,人口統計学的,臨床的特徴を効果的に利用し,疾患リスクを推定できることを示した。
論文 参考訳(メタデータ) (2023-07-18T07:12:46Z) - MedAlpaca -- An Open-Source Collection of Medical Conversational AI
Models and Training Data [40.97474177100237]
大規模言語モデル(LLM)は、医療、診断、患者医療、教育を改善するためのかなりの約束を持っている。
しかし、患者のプライバシを保護するために、オンプレミスでデプロイできるオープンソースモデルが緊急に必要である。
本稿では、160,000以上のエントリからなる革新的なデータセットについて紹介する。
論文 参考訳(メタデータ) (2023-04-14T11:28:08Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。