論文の概要: Me LLaMA: Foundation Large Language Models for Medical Applications
- arxiv url: http://arxiv.org/abs/2402.12749v1
- Date: Tue, 20 Feb 2024 06:37:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 16:45:39.789665
- Title: Me LLaMA: Foundation Large Language Models for Medical Applications
- Title(参考訳): Me LLaMA:医療応用のための基礎的な大規模言語モデル
- Authors: Qianqian Xie, Qingyu Chen, Aokun Chen, Cheng Peng, Yan Hu, Fongci Lin,
Xueqing Peng, Jimin Huang, Jeffrey Zhang, Vipina Keloth, Huan He, Lucila
Ohno-Machido, Yonghui Wu, Hua Xu, Jiang Bian
- Abstract要約: ChatGPTやLLaMAのような大規模言語モデル(LLM)は多くのAIアプリケーションで大きな可能性を示しています。
本研究では,基礎モデル-Me LLaMA 13/70Bとそのチャット強化バージョン-Me LLaMA 13/70B-chatを含む医療用LLMファミリーであるMe LLaMAを紹介する。
- 参考スコア(独自算出の注目度): 35.250353477388565
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent large language models (LLMs) like ChatGPT and LLaMA have shown great
promise in many AI applications. However, their performance on medical tasks is
suboptimal and can be further improved by training on large domain-specific
datasets. This study introduces Me LLaMA, a medical LLM family including
foundation models - Me LLaMA 13/70B and their chat-enhanced versions - Me LLaMA
13/70B-chat, developed through the continual pre-training and instruction
tuning of LLaMA2 using large medical data. Our domain-specific data suite for
training and evaluation, includes a large-scale continual pre-training dataset
with 129B tokens, an instruction tuning dataset with 214k samples, and a
medical evaluation benchmark (MIBE) across six tasks with 14 datasets. Our
extensive evaluation using MIBE shows that Me LLaMA models surpass existing
open-source medical LLMs in zero-shot and few-shot learning and outperform
commercial giants like ChatGPT on 6 out of 8 datasets and GPT-4 in 3 out of 8
datasets. In addition, we empirically investigated the catastrophic forgetting
problem, and our results show that Me LLaMA models outperform other medical
LLMs. Me LLaMA is one of the first and largest open-source foundational LLMs
designed for the medical domain, using both biomedical and clinical data. It
exhibits superior performance across both general and medical tasks compared to
other medical LLMs, rendering it an attractive choice for medical AI
applications. All resources are available at:
https://github.com/BIDS-Xu-Lab/Me-LLaMA.
- Abstract(参考訳): ChatGPTやLLaMAのような最近の大規模言語モデル(LLM)は多くのAIアプリケーションで大きな可能性を示している。
しかしながら、医療タスクにおけるパフォーマンスは最適ではないため、大規模なドメイン固有データセットでのトレーニングによってさらに向上することができる。
本研究は, 基礎モデルであるMe LLaMA 13/70Bとそのチャット強化版であるMe LLaMA 13/70B-chatを含む医療用LLMファミリーであるMe LLaMAについて紹介する。
トレーニングと評価のためのドメイン固有データスイートには,129Bトークンを備えた大規模継続事前トレーニングデータセット,214kサンプルを備えた命令チューニングデータセット,14データセットを備えた6タスクにわたる医療評価ベンチマーク(MIBE)が含まれている。
MIBEを用いた大規模な評価では,8データセット中6データセットでChatGPT,8データセット中3データセットでGPT-4など,既存のオープンソース医療用LLMをゼロショットおよび少数ショット学習で上回り,商業用巨人を上回っている。
以上の結果から,Me LLaMAモデルが他の医療用LLMよりも優れていたことが示唆された。
Me LLaMAは、バイオメディカルデータと臨床データの両方を用いて、医療領域向けに設計された最初の、かつ最大のオープンソース基盤LPMの1つである。
他の医療用LLMと比較して、一般的なタスクと医療の両方で優れたパフォーマンスを示しており、医療用AIアプリケーションにとって魅力的な選択である。
すべてのリソースは、https://github.com/BIDS-Xu-Lab/Me-LLaMAで利用可能である。
関連論文リスト
- A Comparative Study of Recent Large Language Models on Generating Hospital Discharge Summaries for Lung Cancer Patients [19.777109737517996]
本研究の目的は,大規模言語モデル(LLM)が手動要約の負担を軽減することにある。
本研究は, GPT-3.5, GPT-4, GPT-4o, LLaMA 3 8bを含む複数のLCMの放電サマリー生成性能について検討した。
論文 参考訳(メタデータ) (2024-11-06T10:02:50Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - LLMs-in-the-loop Part-1: Expert Small AI Models for Bio-Medical Text Translation [0.0]
本研究では,医療用テキストに最適化された教師ありニューラルマシン翻訳モデルを開発するために,新しい"LLMs-in-the-loop"アプローチを提案する。
6つの言語での独自の平行コーパスは、科学論文、人工的に生成された臨床文書、医療文書から編纂された。
MarianMTベースのモデルは、Google Translate、DeepL、GPT-4-Turboより優れている。
論文 参考訳(メタデータ) (2024-07-16T19:32:23Z) - Are Large Language Models True Healthcare Jacks-of-All-Trades? Benchmarking Across Health Professions Beyond Physician Exams [32.77551245372691]
医療におけるLLM(Large Language Models)の評価のための既存のベンチマークは、主に医師に焦点を当てている。
従来の中国語における大規模医療知識ベンチマークであるEMPEC(Inspecters for Medical Personnel in Chinese)を紹介する。
EMPECは124人の被験者と20の医療専門家からなる157,803の試験質問からなる。
論文 参考訳(メタデータ) (2024-06-17T08:40:36Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Benchmarking Large Language Models on CMExam -- A Comprehensive Chinese
Medical Exam Dataset [31.047827145874844]
中国国立医学ライセンス試験から得られたCMExamについて紹介する。
CMExamは、標準化および客観的評価のための60K以上の多重選択質問と、オープンエンドなモデル推論評価のためのソリューション説明で構成されている。
LLMの詳細な分析のために、我々は医療専門家に、病気グループ、臨床部門、医学分野、能力領域、難易度レベルを含む5つの追加の質問点アノテーションのラベル付けを依頼した。
論文 参考訳(メタデータ) (2023-06-05T16:48:41Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。