論文の概要: Qilin-Med: Multi-stage Knowledge Injection Advanced Medical Large Language Model
- arxiv url: http://arxiv.org/abs/2310.09089v2
- Date: Wed, 17 Apr 2024 15:18:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 19:30:24.079926
- Title: Qilin-Med: Multi-stage Knowledge Injection Advanced Medical Large Language Model
- Title(参考訳): Qilin-Med:多段階知識注入医療大言語モデル
- Authors: Qichen Ye, Junling Liu, Dading Chong, Peilin Zhou, Yining Hua, Fenglin Liu, Meng Cao, Ziming Wang, Xuxin Cheng, Zhu Lei, Zhenhua Guo,
- Abstract要約: 本稿では,ドメイン固有型連続事前学習(DCPT),スーパーバイザードファインチューニング(SFT),直接選好最適化(DPO)を組み合わせた多段階学習手法を提案する。
CPTとSFTの段階では、Qilin-MedはCMExamテストセットでそれぞれ38.4%と40.0%の精度を達成した。
DPOフェーズでは、BLEU-1で16.66点、Huatuo-26MテストセットでROUGE-1で27.44点を記録し、SFTフェーズ(BLEU-1で12.69点、ROUGE-1で24.21点)をさらに改善した。
- 参考スコア(独自算出の注目度): 41.11769935795965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating large language models (LLMs) into healthcare holds great potential but faces challenges. Pre-training LLMs from scratch for domains like medicine is resource-heavy and often unfeasible. On the other hand, sole reliance on Supervised Fine-tuning (SFT) can result in overconfident predictions and may not tap into domain-specific insights. In response, we present a multi-stage training method combining Domain-specific Continued Pre-training (DCPT), SFT, and Direct Preference Optimization (DPO). In addition, we publish a 3Gb Chinese Medicine (ChiMed) dataset, encompassing medical question answering, plain texts, knowledge graphs, and dialogues, segmented into three training stages. The medical LLM trained with our pipeline, Qilin-Med, shows substantial performance improvement. In the CPT and SFT phases, Qilin-Med achieved 38.4% and 40.0% accuracy on the CMExam test set, respectively. It outperformed the basemodel Baichuan-7B (accuracy: 33.5%), by 7.5%. In the DPO phase, it scored 16.66 in BLEU-1 and 27.44 in ROUGE-1 on the Huatuo-26M test set, bringing further improvement to the SFT phase (12.69 in BLEU-1 and 24.21 in ROUGE-1). Additionally, we have further enhanced the model's performance through the Retrieval Augmented Generation (RAG) approach. Experiments demonstrate that Qilin-Med-RAG achieves an accuracy rate of 42.8% on CMExam. These results highlight the contribution of our novel training approach in building LLMs for medical applications.
- Abstract(参考訳): 大きな言語モデル(LLM)を医療に統合することは大きな可能性を秘めているが、課題に直面している。
医学のような領域でゼロからLLMを事前訓練することは、資源が豊富であり、しばしば不可能である。
一方、Supervised Fine-tuning (SFT) のみに依存すると、自信過剰な予測が発生し、ドメイン固有の洞察を取り入れない可能性がある。
そこで本研究では,ドメイン固有型継続事前学習(DCPT),SFT,DPOを組み合わせた多段階学習手法を提案する。
さらに,医学的質問応答,平文,知識グラフ,対話を含む3Gb Chinese Medicine (ChiMed)データセットを3つの訓練段階に分けて公開する。
当社のパイプラインでトレーニングした医療用LLMであるQilin-Medは、大幅なパフォーマンス向上を示している。
CPTとSFTの段階では、Qilin-MedはCMExamテストセットでそれぞれ38.4%と40.0%の精度を達成した。
ベースモデルBaichuan-7B(精度33.5%)を7.5%上回った。
DPOフェーズでは、BLEU-1で16.66点、Huatuo-26MでROUGE-1で27.44点を記録し、SFTフェーズ(BLEU-1で12.69点、ROUGE-1で24.21点)をさらに改善した。
さらに,Retrieval Augmented Generation (RAG) アプローチにより,モデルの性能をさらに向上させた。
実験により、Qilin-Med-RAGはCMExamで42.8%の精度を達成することが示された。
これらの結果は,医学的応用のためのLSM構築における新たなトレーニングアプローチの貢献を浮き彫りにしている。
関連論文リスト
- Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks [17.40940406100025]
私たちは、70億から700億のパラメータからなる、医療AIシステムの新しいファミリーであるMeerkatを紹介します。
我々のシステムは6つの医療ベンチマークで顕著な精度を達成した。
Meerkat-70Bは38例中21例を正しく診断し、ヒトの13.8例を上回った。
論文 参考訳(メタデータ) (2024-03-30T14:09:00Z) - Qibo: A Large Language Model for Traditional Chinese Medicine [10.394665777883064]
伝統的な中国医学には、理論と近代医学の根本的な違いのような課題がある。
本研究では,継続的事前学習と教師付き微調整を組み合わせた2段階学習手法を提案する。
本研究の特筆すべき貢献は,TCM専用の2GBコーパスの処理である。
論文 参考訳(メタデータ) (2024-03-24T07:48:05Z) - JMLR: Joint Medical LLM and Retrieval Training for Enhancing Reasoning and Professional Question Answering Capability [8.476124605775976]
LLM(Large Language Models)は、医学知識の獲得と質問応答において顕著な可能性を実証している。
LLMは、ドメイン固有の事前訓練であっても、幻覚を起こし、事実的に誤った結果をもたらす可能性がある。
JMLR(LLMと情報検索)を微調整期間中に導入し,幻覚に対処する。
論文 参考訳(メタデータ) (2024-02-27T21:01:41Z) - MEDITRON-70B: Scaling Medical Pretraining for Large Language Models [91.25119823784705]
大きな言語モデル(LLM)は、医療知識へのアクセスを民主化することができる。
医療領域に適応した7Bおよび70BパラメータのオープンソースLLMスイートであるMEDITRONをリリースする。
論文 参考訳(メタデータ) (2023-11-27T18:49:43Z) - ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences [51.66185471742271]
我々は中国医学領域向けに明示的に設計されたベンチマークLSMであるChiMed-GPTを提案する。
ChiMed-GPTは、事前訓練、SFT、RLHFを含む総合的な訓練体制を実施。
我々は,ChiMed-GPTを患者識別に関する態度尺度の実行を促すことによって,潜在的なバイアスを分析した。
論文 参考訳(メタデータ) (2023-11-10T12:25:32Z) - Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering (Published in Findings of EMNLP 2024) [48.17095875619711]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。
LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。
検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文 参考訳(メタデータ) (2023-09-05T13:39:38Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。