Fugu-MT 論文翻訳(概要): Me LLaMA: Foundation Large Language Models for Medical Applications

論文の概要: Me LLaMA: Foundation Large Language Models for Medical Applications

arxiv url: http://arxiv.org/abs/2402.12749v2
Date: Mon, 11 Mar 2024 04:04:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 13:58:16.159310
Title: Me LLaMA: Foundation Large Language Models for Medical Applications
Title（参考訳）: Me LLaMA:医療応用のための基礎的な大規模言語モデル
Authors: Qianqian Xie, Qingyu Chen, Aokun Chen, Cheng Peng, Yan Hu, Fongci Lin, Xueqing Peng, Jimin Huang, Jeffrey Zhang, Vipina Keloth, Xingyu Zhou, Huan He, Lucila Ohno-Machido, Yonghui Wu, Hua Xu, Jiang Bian
Abstract要約: 本研究は,基礎モデルであるMe LLaMA 13/70Bとチャット強化バージョンであるMe LLaMA 13/70B-chatを含む医療用LLMファミリーであるMe LLaMAを紹介する。トレーニングと評価のためのドメイン固有のデータスイートには、129Bトークンを備えた大規模で連続的な事前トレーニングデータセットが含まれています。 Me LLaMAモデルは、ゼロショット、少数ショット、教師あり学習能力において、既存のオープンソース医療用LLMよりも全体的なパフォーマンスが向上する。
参考スコア（独自算出の注目度）: 36.75939124670779
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent large language models (LLMs) such as ChatGPT and LLaMA have shown great promise in many AI applications. However, their performance on medical tasks is suboptimal and can be improved by training on extensive domain-specific datasets. This study introduces Me LLaMA, a medical LLM family that includes foundation models - Me LLaMA 13/70B, along with their chat-enhanced versions - Me LLaMA 13/70B-chat, developed through continual pre-training and instruction tuning of LLaMA2 using large medical datasets. Our domain-specific data suite for training and evaluation includes a large-scale, continual pre-training dataset with 129B tokens, an instruction tuning dataset with 214k samples, and a new medical evaluation benchmark (MIBE) across six tasks with 12 datasets. Our extensive evaluation using the MIBE shows that Me LLaMA models achieve overall better performance than existing open-source medical LLMs in zero-shot, few-shot and supervised learning abilities. Their zero-shot performance is comparable with ChatGPT across 7 out of 8 datasets, with a slight variance of within 3%, and yet falls short when compared to GPT-4. In addition, we investigated the catastrophic forgetting problem, and our results show that Me LLaMA models outperform other open-source medical LLMs in mitigating this issue. Me LLaMA is one of the largest open-source medical foundation LLMs that use both biomedical and clinical data. It exhibits superior performance across both general and medical tasks compared to other open-source medical LLMs, rendering it an attractive choice for medical AI applications. We release our models, datasets, and evaluation scripts at: https://github.com/BIDS-Xu-Lab/Me-LLaMA.
Abstract（参考訳）: ChatGPTやLLaMAといった最近の大規模言語モデル(LLM)は多くのAIアプリケーションで大きな可能性を示している。しかし、医療タスクにおけるそれらのパフォーマンスは最適以下であり、広範なドメイン固有のデータセットのトレーニングによって改善することができる。本研究では,Me LLaMA 13/70B,Me LLaMA 13/70B-chat,Me LLaMA 13/70B-chatなどの基礎モデルを含む医療用LLMファミリーについて紹介する。トレーニングと評価のためのドメイン固有のデータスイートには、129Bトークンによる大規模で連続的な事前トレーニングデータセット、214kサンプルによる命令チューニングデータセット、12データセットによる6つのタスクにわたる新しい医療評価ベンチマーク(MIBE)が含まれている。 MIBEを用いた広範囲な評価により,Me LLaMAモデルは,ゼロショット,少数ショット,教師あり学習能力において,既存のオープンソース医療用LLMよりも総合的に優れた性能を発揮することが示された。ゼロショットのパフォーマンスは、8つのデータセットのうち7つにまたがるChatGPTに匹敵する。さらに, 破滅的な忘れ込み問題を検討した結果, Me LLaMAモデルは, 他のオープンソース医療用LLMよりも優れており, この問題を緩和していることがわかった。 Me LLaMAは、バイオメディカルデータと臨床データの両方を使用する、最大のオープンソース医療財団の1つである。他のオープンソース医療用LLMと比較して、一般的なタスクと医療タスクの両方で優れたパフォーマンスを示しており、医療AIアプリケーションにとって魅力的な選択である。モデル、データセット、評価スクリプトをhttps://github.com/BIDS-Xu-Lab/Me-LLaMAでリリースします。

関連論文リスト

Performance of Large Language Models in Supporting Medical Diagnosis and Treatment [0.0]
AI駆動システムは、膨大なデータセットを分析し、臨床医が病気を特定し、治療を推奨し、患者の結果を予測するのを支援する。本研究は,2024年のポルトガル国立試験場において,オープンソースモデルとクローズドソースモデルの両方を含む,現代LLMの性能評価を行った。
論文参考訳（メタデータ） (2025-04-14T16:53:59Z)
A Comparative Study of Recent Large Language Models on Generating Hospital Discharge Summaries for Lung Cancer Patients [19.777109737517996]
本研究の目的は,大規模言語モデル(LLM)が手動要約の負担を軽減することにある。本研究は, GPT-3.5, GPT-4, GPT-4o, LLaMA 3 8bを含む複数のLCMの放電サマリー生成性能について検討した。
論文参考訳（メタデータ） (2024-11-06T10:02:50Z)
Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
LLMs-in-the-loop Part-1: Expert Small AI Models for Bio-Medical Text Translation [0.0]
本研究では,医療用テキストに最適化された教師ありニューラルマシン翻訳モデルを開発するために,新しい"LLMs-in-the-loop"アプローチを提案する。 6つの言語での独自の平行コーパスは、科学論文、人工的に生成された臨床文書、医療文書から編纂された。 MarianMTベースのモデルは、Google Translate、DeepL、GPT-4-Turboより優れている。
論文参考訳（メタデータ） (2024-07-16T19:32:23Z)
Are Large Language Models True Healthcare Jacks-of-All-Trades? Benchmarking Across Health Professions Beyond Physician Exams [32.77551245372691]
医療におけるLLM(Large Language Models)の評価のための既存のベンチマークは、主に医師に焦点を当てている。従来の中国語における大規模医療知識ベンチマークであるEMPEC(Inspecters for Medical Personnel in Chinese)を紹介する。 EMPECは124人の被験者と20の医療専門家からなる157,803の試験質問からなる。
論文参考訳（メタデータ） (2024-06-17T08:40:36Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文参考訳（メタデータ） (2023-08-27T12:24:39Z)
Benchmarking Large Language Models on CMExam -- A Comprehensive Chinese Medical Exam Dataset [31.047827145874844]
中国国立医学ライセンス試験から得られたCMExamについて紹介する。 CMExamは、標準化および客観的評価のための60K以上の多重選択質問と、オープンエンドなモデル推論評価のためのソリューション説明で構成されている。 LLMの詳細な分析のために、我々は医療専門家に、病気グループ、臨床部門、医学分野、能力領域、難易度レベルを含む5つの追加の質問点アノテーションのラベル付けを依頼した。
論文参考訳（メタデータ） (2023-06-05T16:48:41Z)
PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。 LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。 PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文参考訳（メタデータ） (2023-04-27T18:29:05Z)
Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文参考訳（メタデータ） (2022-12-26T14:28:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。