論文の概要: TCM-GPT: Efficient Pre-training of Large Language Models for Domain
Adaptation in Traditional Chinese Medicine
- arxiv url: http://arxiv.org/abs/2311.01786v1
- Date: Fri, 3 Nov 2023 08:54:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 14:49:27.816544
- Title: TCM-GPT: Efficient Pre-training of Large Language Models for Domain
Adaptation in Traditional Chinese Medicine
- Title(参考訳): TCM-GPT:漢方医学におけるドメイン適応のための大規模言語モデルの効率的な事前学習
- Authors: Guoxing Yang, Jianyu Shi, Zan Wang, Xiaohong Liu, Guangyu Wang
- Abstract要約: ドメイン固有コーパスを用いた効率的な事前学習を行うTCMDA(TCM Domain Adaptation)アプローチを提案する。
具体的には、まず、ドメインキーワードを識別し、一般コーパスから再帰することで、TCM固有の大規模コーパスTCM-Corpus-1Bを構築する。
そこで,本TCMDAでは,事前学習および微調整のために,事前学習したモデルの重量を凍結するLoRAを活用し,ランク分解行列を用いて特定の密度層を効率的に訓練する。
- 参考スコア(独自算出の注目度): 11.537289359051975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-training and fine-tuning have emerged as a promising paradigm across
various natural language processing (NLP) tasks. The effectiveness of
pretrained large language models (LLM) has witnessed further enhancement,
holding potential for applications in the field of medicine, particularly in
the context of Traditional Chinese Medicine (TCM). However, the application of
these general models to specific domains often yields suboptimal results,
primarily due to challenges like lack of domain knowledge, unique objectives,
and computational efficiency. Furthermore, their effectiveness in specialized
domains, such as Traditional Chinese Medicine, requires comprehensive
evaluation. To address the above issues, we propose a novel domain specific
TCMDA (TCM Domain Adaptation) approach, efficient pre-training with
domain-specific corpus. Specifically, we first construct a large TCM-specific
corpus, TCM-Corpus-1B, by identifying domain keywords and retreving from
general corpus. Then, our TCMDA leverages the LoRA which freezes the pretrained
model's weights and uses rank decomposition matrices to efficiently train
specific dense layers for pre-training and fine-tuning, efficiently aligning
the model with TCM-related tasks, namely TCM-GPT-7B. We further conducted
extensive experiments on two TCM tasks, including TCM examination and TCM
diagnosis. TCM-GPT-7B archived the best performance across both datasets,
outperforming other models by relative increments of 17% and 12% in accuracy,
respectively. To the best of our knowledge, our study represents the pioneering
validation of domain adaptation of a large language model with 7 billion
parameters in TCM domain. We will release both TCMCorpus-1B and TCM-GPT-7B
model once accepted to facilitate interdisciplinary development in TCM and NLP,
serving as the foundation for further study.
- Abstract(参考訳): 事前学習と微調整は、様々な自然言語処理(NLP)タスクにまたがる有望なパラダイムとして登場した。
事前訓練された大規模言語モデル(LLM)の有効性は、医学分野、特に伝統的な漢方医学(TCM)の文脈において、さらなる強化が期待されている。
しかしながら、これらの一般モデルの特定の領域への応用は、ドメイン知識の欠如、一意的な目的、計算効率などの課題により、しばしば準最適結果をもたらす。
また、漢方医学などの専門分野における効果には総合的な評価が必要である。
上記の課題に対処するため、ドメイン固有コーパスを用いた効率的な事前学習を行うTCMDA(TCM Domain Adaptation)アプローチを提案する。
具体的には,まずドメインキーワードを識別し,一般コーパスから検索することで,tcm固有のコーパスであるtcm-corpus-1bを構築する。
そこで,本論文では,事前学習したモデルの重みを冷凍するLoRAを利用して,事前学習および微調整のために,特定の高密度層を効率よく訓練し,TCM-GPT-7BというTCM関連タスクと効率的に整合させる。
さらにTCM検査とTCM診断の2つの課題について広範な実験を行った。
TCM-GPT-7Bは両方のデータセットで最高のパフォーマンスをアーカイブし、それぞれ17%と12%の精度で他のモデルを上回った。
我々の知る限り、我々の研究は、TCMドメインに70億のパラメータを持つ大規模言語モデルのドメイン適応の先駆的な検証である。
今後,TCM と NLP の学際開発を促進するため,TCMCorpus-1B と TCM-GPT-7B の両モデルをリリースする。
関連論文リスト
- Exploring the Comprehension of ChatGPT in Traditional Chinese Medicine Knowledge [0.0]
我々は,TCM-QAという問合せデータセットを提示する。これは,1つの選択,複数の選択,真または偽の3つの問合せタイプからなる。
本研究では,LLMの2つの設定,ゼロショットと少数ショットの設定を評価し,英語と中国語のプロンプトの違いを同時に議論した。
以上の結果から,ChatGPTの精度は0.688であり,最も低い精度は0.241であることがわかった。
論文 参考訳(メタデータ) (2024-03-14T08:20:40Z) - Training Small Multimodal Models to Bridge Biomedical Competency Gap: A
Case Study in Radiology Imaging [114.43429928419755]
バイオメディカル・コンピテンシー・ギャップを橋渡しするオープンソース小型マルチモーダル・モデル(SMM)の訓練について検討する。
LLaVA-Radは高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - RoKEPG: RoBERTa and Knowledge Enhancement for Prescription Generation of
Traditional Chinese Medicine [2.1098688291287475]
漢方薬の処方生成のためのRoBERTaと知識強化モデル(RoKEPG)を提案する。
RoKEPGは、アテンションマスクマトリックスを通して、TCMの知識の4つのクラスを導入することで、TCM処方薬を生成するためにガイドされる。
一般に公開されているTCM処方データセットの実験結果から、RoKEPGはベースラインモデルよりも約2%改善していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T01:59:38Z) - HuatuoGPT-II, One-stage Training for Medical Adaption of LLMs [62.73042700847977]
HuatuoGPT-IIは、いくつかのベンチマークで、中国の医学領域における最先端のパフォーマンスを示している。
さらに、ChatGPTやGPT-4といったプロプライエタリなモデルよりも、特に中国伝統医学において優れています。
論文 参考訳(メタデータ) (2023-11-16T10:56:24Z) - Continuous Training and Fine-tuning for Domain-Specific Language Models
in Medical Question Answering [4.254954312483959]
大規模言語モデルは有望な汎用能力を示すが、しばしばドメイン固有のタスクに関する専門知識を欠いている。
本研究は,Llama 2ベースモデルを中国医学領域に迅速に適応させるための,連続的なトレーニングと指導の微調整を用いた手法を実証する。
論文 参考訳(メタデータ) (2023-11-01T00:18:00Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - TCM-SD: A Benchmark for Probing Syndrome Differentiation via Natural
Language Processing [31.190757020836656]
TCM診断・治療システムの中核的課題に焦点をあてる -- 症候群分化(SD)
本データセットは,148症例を対象とした実世界の臨床記録54,152例を含む。
本稿では、ZY-BERTと呼ばれるドメイン固有の事前学習言語モデルを提案する。
論文 参考訳(メタデータ) (2022-03-21T09:59:54Z) - Domain Generalization on Medical Imaging Classification using Episodic
Training with Task Augmentation [62.49837463676111]
本稿では,医用画像分類におけるタスク強化によるエピソードトレーニングの新たな手法を提案する。
実際の医療展開において、限られた数のソースドメインによって動機付けられ、ユニークなタスクレベルのオーバーフィッティングを検討します。
論文 参考訳(メタデータ) (2021-06-13T03:56:59Z) - Cross-Modality Brain Tumor Segmentation via Bidirectional
Global-to-Local Unsupervised Domain Adaptation [61.01704175938995]
本論文では,UDAスキームに基づくBiGL(Bidirectional Global-to-Local)適応フレームワークを提案する。
具体的には、脳腫瘍をセグメント化するために、双方向画像合成およびセグメンテーションモジュールを提案する。
提案手法は, 最先端の非教師なし領域適応法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-05-17T10:11:45Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z) - The Utility of General Domain Transfer Learning for Medical Language
Tasks [1.5459429010135775]
本研究の目的は,医療自然言語処理(NLP)タスクに適用したトランスファーラーニング手法とトランスフォーマーベースモデルの有効性を解析することである。
一般的なテキスト転送学習は、放射線コーパス上の医学的NLPタスクにおいて、最先端の結果を生成するための有効な技術である可能性がある。
論文 参考訳(メタデータ) (2020-02-16T20:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。