論文の概要: CBEAF-Adapting: Enhanced Continual Pretraining for Building Chinese
Biomedical Language Model
- arxiv url: http://arxiv.org/abs/2211.11363v1
- Date: Mon, 21 Nov 2022 11:30:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 18:00:00.104001
- Title: CBEAF-Adapting: Enhanced Continual Pretraining for Building Chinese
Biomedical Language Model
- Title(参考訳): CBEAF適応:中国の生物医学言語モデル構築のための継続的な事前訓練
- Authors: Yongyu Yan, Kui Xue, Qi Ye, Tong Ruan
- Abstract要約: 本稿では,BERT モデルに対する CBEAF-Adapting という継続事前学習手法を提案する。
本手法により,微調整に比べて約13%の誤差が軽減される。
- 参考スコア(独自算出の注目度): 2.3800397174740984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual pretraining is a standard way of building a domain-specific
pretrained language model from a general-domain language model. However,
sequential task training may cause catastrophic forgetting, which affects the
model performance in downstream tasks. In this paper, we propose a continual
pretraining method for the BERT-based model, named CBEAF-Adapting (Chinese
Biomedical Enhanced Attention-FFN Adapting). Its main idea is to introduce a
small number of attention heads and hidden units inside each self-attention
layer and feed-forward network. Using the Chinese biomedical domain as a
running example, we trained a domain-specific language model named
CBEAF-RoBERTa. We conduct experiments by applying models to downstream tasks.
The results demonstrate that with only about 3% of model parameters trained,
our method could achieve about 0.5%, 2% average performance gain compared to
the best performing model in baseline and the domain-specific model,
PCL-MedBERT, respectively. We also examine the forgetting problem of different
pretraining methods. Our method alleviates the problem by about 13% compared to
fine-tuning.
- Abstract(参考訳): 連続事前訓練は、汎用ドメイン言語モデルからドメイン固有の事前訓練言語モデルを構築する標準的な方法である。
しかし、シーケンシャルなタスクトレーニングは、ダウンストリームタスクのモデルパフォーマンスに影響を与える破滅的な忘れる可能性がある。
本稿では, CBEAF-Adapting (China Biomedical Enhanced Attention-FFN Adapting) という名前のBERTモデルに対する継続事前学習手法を提案する。
その主なアイデアは、各セルフアテンション層とフィードフォワードネットワークの中に、少数の注意ヘッドと隠れユニットを導入することである。
中国のバイオメディカルドメインを実例として使用し、cbeaf-robertaというドメイン固有言語モデルをトレーニングしました。
下流タスクにモデルを適用して実験を行う。
その結果,学習したモデルパラメータの約3%で,ベースラインにおける最高の性能モデルと,ドメイン固有モデルであるPCL-MedBERTと比較して約0.5%,2%の性能向上が達成できた。
また、異なる事前学習方法の忘れ問題についても検討する。
本手法は,微調整と比較して約13%緩和する。
関連論文リスト
- StochCA: A Novel Approach for Exploiting Pretrained Models with Cross-Attention [2.66269503676104]
トランスフォーマーアーキテクチャに特有なクロスアテンション(StochCA)と呼ばれる新しい微調整手法を提案する。
この方法はトランスフォーマーの自己保持機構を変更し、微調整中に事前学習したモデルからの知識を選択的に活用する。
両領域の最先端アプローチに対するStochCAの優位性について検討した。
論文 参考訳(メタデータ) (2024-02-25T13:53:49Z) - FDAPT: Federated Domain-adaptive Pre-training for Language Models [15.755622890097941]
本稿では,DAPT(Domain-Adaptive Pre-Training)の具体例について述べる。
FDAPT(Federated Domain-Adaptive Pre-Training)の成績を評価するための総合的実証的研究を行った。
我々はFFDAPT(Frozen Federated Domain-Adaptive Pre-Training)という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-12T17:04:28Z) - An Empirical Analysis of Parameter-Efficient Methods for Debiasing
Pre-Trained Language Models [55.14405248920852]
各種言語モデルとバイアスタイプを用いたプレフィックスチューニング,プロンプトチューニング,アダプタチューニングによる実験を行い,その性能評価を行った。
パラメータ効率のよい手法は、適応調整が常に最も効果的であるジェンダーバイアスを軽減するのに有効であることがわかった。
また、早急なチューニングは、BERTよりもGPT-2に適しており、人種的・宗教的偏見に関しては、人種的・宗教的偏見が低いことが判明した。
論文 参考訳(メタデータ) (2023-06-06T23:56:18Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - A Study on FGSM Adversarial Training for Neural Retrieval [3.2634122554914]
ニューラル検索モデルは、項ベースの手法と比較して、ここ数年で顕著な効果を得た。
しかし、これらのモデルは、タイプミスや配布シフトに直面したり、悪意のある攻撃に対して脆弱である可能性がある。
我々は,FGSM(Fast Gradient Sign Method)という,最も単純な逆行訓練手法の1つが,第1段階のローダの堅牢性と有効性を向上させることができることを示した。
論文 参考訳(メタデータ) (2023-01-25T13:28:54Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - UDALM: Unsupervised Domain Adaptation through Language Modeling [79.73916345178415]
複合分類とマスキング言語モデル損失を用いた微調整手順であるUDALMについて紹介します。
本実験では, 混合損失スケールと利用可能な目標データの量で訓練されたモデルの性能を, 停止基準として有効に用いることを示した。
この方法は、amazon reviewsセンチメントデータセットの12のドメインペアで評価され、9.1.74%の精度が得られ、最先端よりも1.11%の絶対的な改善が得られます。
論文 参考訳(メタデータ) (2021-04-14T19:05:01Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。