論文の概要: AlpaCare:Instruction-tuned Large Language Models for Medical Application
- arxiv url: http://arxiv.org/abs/2310.14558v4
- Date: Mon, 10 Jun 2024 17:52:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 04:47:59.504471
- Title: AlpaCare:Instruction-tuned Large Language Models for Medical Application
- Title(参考訳): AlpaCare:医学応用のための指導訓練型大規模言語モデル
- Authors: Xinlu Zhang, Chenxin Tian, Xianjun Yang, Lichang Chen, Zekun Li, Linda Ruth Petzold,
- Abstract要約: GPT-4 と ChatGPT を用いた多種多様な医療用 IFT データセット MedInstruct-52k の作成を提案する。
次に、データセット上のLLaMA系列モデルを微調整してAlpaCareを開発する。
ドメイン固有のデータセットが小さいにもかかわらず、AlpaCareは医療アプリケーションで優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 23.697610908951443
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Instruction-finetuning (IFT) has become crucial in aligning Large Language Models (LLMs) with diverse human needs and has shown great potential in medical applications. However, previous studies mainly fine-tune LLMs on biomedical datasets with limited diversity, which often rely on benchmarks or narrow task scopes, and hence significantly limit the effectiveness on their medical instruction-following ability and generalizability. To bridge this gap, we propose creating a diverse, machine-generated medical IFT dataset, MedInstruct-52k, using GPT-4 and ChatGPT with a high-quality expert-curated seed set. We then fine-tune LLaMA-series models on the dataset to develop AlpaCare. Despite using a smaller domain-specific dataset than previous medical LLMs, AlpaCare not only demonstrates superior performance on medical applications, with up to 38.1% absolute gain over best baselines in medical free-form instruction evaluations, but also achieves 6.7% absolute gains averaged over multiple general domain benchmarks. Human evaluation further shows that AlpaCare consistently outperforms best baselines in terms of both correctness and helpfulness. We offer public access to our data, model, and codebase in https://github.com/XZhang97666/AlpaCare.
- Abstract(参考訳): インストラクションファインタニング(IFT)は,大規模言語モデル(LLM)と多様な人的ニーズの整合に不可欠であり,医学的応用に大きな可能性を示している。
しかし、従来の研究は主に、ベンチマークやタスク範囲の狭い生物医学的データセットを微調整し、その結果、医学的な指導・追跡能力と一般化性に対する効果を著しく制限した。
このギャップを埋めるため,GPT-4 と ChatGPT を用いた多種多様な医学 IFT データセット MedInstruct-52k の作成を提案する。
次に、データセット上のLLaMA系列モデルを微調整してAlpaCareを開発する。
AlpaCareは、以前の医療用LLMよりも小さなドメイン固有のデータセットを使用しているが、医療応用において優れたパフォーマンスを示すだけでなく、医療用フリーフォームの命令評価において、最高基準よりも38.1%の絶対的なゲインを持つだけでなく、複数の一般的なドメインベンチマークで平均6.7%の絶対的なゲインを達成する。
人間の評価はさらに、AlpaCareは正確性と有用性の両方の観点から、最高のベースラインを一貫して上回っていることを示している。
データ、モデル、コードベースへの公開アクセスはhttps://github.com/XZhang97666/AlpaCare.comで提供しています。
関連論文リスト
- A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? [33.70022886795487]
OpenAIのo1は、強化学習戦略を使ったチェーン・オブ・ソート技術を使った最初のモデルとして際立っている。
本報告では、様々な医療シナリオにおけるo1の総合的な探索を行い、理解、推論、多言語性という3つの重要な側面について検討する。
論文 参考訳(メタデータ) (2024-09-23T17:59:43Z) - Biomedical Large Languages Models Seem not to be Superior to Generalist Models on Unseen Medical Data [3.469567586411153]
大規模言語モデル (LLM) は、生物医学的応用の可能性を示しており、それらをドメイン固有のデータに微調整する努力に繋がった。
本研究は, バイオメディカル微調整LDMの多種多様な臨床課題における汎用性に対する性能評価を行った。
論文 参考訳(メタデータ) (2024-08-25T13:36:22Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。
メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。
我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (2024-04-29T04:11:28Z) - Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks [17.40940406100025]
私たちは、70億から700億のパラメータからなる、医療AIシステムの新しいファミリーであるMeerkatを紹介します。
我々のシステムは6つの医療ベンチマークで顕著な精度を達成した。
Meerkat-70Bは38例中21例を正しく診断し、ヒトの13.8例を上回った。
論文 参考訳(メタデータ) (2024-03-30T14:09:00Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - MEDITRON-70B: Scaling Medical Pretraining for Large Language Models [91.25119823784705]
大きな言語モデル(LLM)は、医療知識へのアクセスを民主化することができる。
医療領域に適応した7Bおよび70BパラメータのオープンソースLLMスイートであるMEDITRONをリリースする。
論文 参考訳(メタデータ) (2023-11-27T18:49:43Z) - ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences [51.66185471742271]
我々は中国医学領域向けに明示的に設計されたベンチマークLSMであるChiMed-GPTを提案する。
ChiMed-GPTは、事前訓練、SFT、RLHFを含む総合的な訓練体制を実施。
我々は,ChiMed-GPTを患者識別に関する態度尺度の実行を促すことによって,潜在的なバイアスを分析した。
論文 参考訳(メタデータ) (2023-11-10T12:25:32Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。