論文の概要: AF Adapter: Continual Pretraining for Building Chinese Biomedical
Language Model
- arxiv url: http://arxiv.org/abs/2211.11363v2
- Date: Fri, 20 Oct 2023 02:32:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 14:06:37.372715
- Title: AF Adapter: Continual Pretraining for Building Chinese Biomedical
Language Model
- Title(参考訳): AFアダプタ:中国の生物医学言語モデル構築のための継続的な事前訓練
- Authors: Yongyu Yan, Kui Xue, Xiaoming Shi, Qi Ye, Jingping Liu, Tong Ruan
- Abstract要約: 本研究では,BERT ベースモデルに対して Attention-FFN Adapter という連続事前学習手法を提案する。
メインのアイデアは、各セルフアテンション層とフィードフォワードネットワーク内に、少数のアテンションヘッドと隠れユニットを導入することだ。
トレーニングされたモデルのパラメータの17%に過ぎず、AF Adapterは、強いベースラインに比べて平均で0.6%、2%のパフォーマンス向上を達成した。
- 参考スコア(独自算出の注目度): 16.657197699107396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual pretraining is a popular way of building a domain-specific
pretrained language model from a general-domain language model. In spite of its
high efficiency, continual pretraining suffers from catastrophic forgetting,
which may harm the model's performance in downstream tasks. To alleviate the
issue, in this paper, we propose a continual pretraining method for the
BERT-based model, named Attention-FFN Adapter. Its main idea is to introduce a
small number of attention heads and hidden units inside each self-attention
layer and feed-forward network. Furthermore, we train a domain-specific
language model named AF Adapter based RoBERTa for the Chinese biomedical
domain. In experiments, models are applied to downstream tasks for evaluation.
The results demonstrate that with only about 17% of model parameters trained,
AF Adapter achieves 0.6%, 2% gain in performance on average, compared to strong
baselines. Further experimental results show that our method alleviates the
catastrophic forgetting problem by 11% compared to the fine-tuning method.
- Abstract(参考訳): 連続事前学習は、一般的なドメイン言語モデルからドメイン固有の事前訓練言語モデルを構築する一般的な方法である。
その効率は高いが、継続的な事前訓練は破滅的な忘れに苦しみ、ダウンストリームタスクにおけるモデルのパフォーマンスを損なう可能性がある。
この問題を軽減するため,本論文では,アテンション-FFNアダプタ(Attention-FFN Adapter)というBERTベースモデルの継続事前学習手法を提案する。
その主なアイデアは、各セルフアテンション層とフィードフォワードネットワークの中に、少数の注意ヘッドと隠れユニットを導入することである。
さらに,中国生物医学領域を対象に,AF AdapterをベースとしたRoBERTaというドメイン固有言語モデルを訓練する。
実験では、評価のために下流タスクにモデルを適用する。
その結果、トレーニングされたモデルパラメータの約17%で、AF Adapterは、強いベースラインに比べて平均で0.6%、2%のパフォーマンス向上を達成した。
さらに, 本手法は, 微調整法と比較して, 壊滅的忘れる問題を11%軽減することを示した。
関連論文リスト
- StochCA: A Novel Approach for Exploiting Pretrained Models with Cross-Attention [2.66269503676104]
トランスフォーマーアーキテクチャに特有なクロスアテンション(StochCA)と呼ばれる新しい微調整手法を提案する。
この方法はトランスフォーマーの自己保持機構を変更し、微調整中に事前学習したモデルからの知識を選択的に活用する。
両領域の最先端アプローチに対するStochCAの優位性について検討した。
論文 参考訳(メタデータ) (2024-02-25T13:53:49Z) - FDAPT: Federated Domain-adaptive Pre-training for Language Models [15.755622890097941]
本稿では,DAPT(Domain-Adaptive Pre-Training)の具体例について述べる。
FDAPT(Federated Domain-Adaptive Pre-Training)の成績を評価するための総合的実証的研究を行った。
我々はFFDAPT(Frozen Federated Domain-Adaptive Pre-Training)という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-12T17:04:28Z) - An Empirical Analysis of Parameter-Efficient Methods for Debiasing
Pre-Trained Language Models [55.14405248920852]
各種言語モデルとバイアスタイプを用いたプレフィックスチューニング,プロンプトチューニング,アダプタチューニングによる実験を行い,その性能評価を行った。
パラメータ効率のよい手法は、適応調整が常に最も効果的であるジェンダーバイアスを軽減するのに有効であることがわかった。
また、早急なチューニングは、BERTよりもGPT-2に適しており、人種的・宗教的偏見に関しては、人種的・宗教的偏見が低いことが判明した。
論文 参考訳(メタデータ) (2023-06-06T23:56:18Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - A Study on FGSM Adversarial Training for Neural Retrieval [3.2634122554914]
ニューラル検索モデルは、項ベースの手法と比較して、ここ数年で顕著な効果を得た。
しかし、これらのモデルは、タイプミスや配布シフトに直面したり、悪意のある攻撃に対して脆弱である可能性がある。
我々は,FGSM(Fast Gradient Sign Method)という,最も単純な逆行訓練手法の1つが,第1段階のローダの堅牢性と有効性を向上させることができることを示した。
論文 参考訳(メタデータ) (2023-01-25T13:28:54Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - UDALM: Unsupervised Domain Adaptation through Language Modeling [79.73916345178415]
複合分類とマスキング言語モデル損失を用いた微調整手順であるUDALMについて紹介します。
本実験では, 混合損失スケールと利用可能な目標データの量で訓練されたモデルの性能を, 停止基準として有効に用いることを示した。
この方法は、amazon reviewsセンチメントデータセットの12のドメインペアで評価され、9.1.74%の精度が得られ、最先端よりも1.11%の絶対的な改善が得られます。
論文 参考訳(メタデータ) (2021-04-14T19:05:01Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。