論文の概要: Adapt-and-Distill: Developing Small, Fast and Effective Pretrained
Language Models for Domains
- arxiv url: http://arxiv.org/abs/2106.13474v2
- Date: Tue, 29 Jun 2021 05:42:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 04:23:01.486421
- Title: Adapt-and-Distill: Developing Small, Fast and Effective Pretrained
Language Models for Domains
- Title(参考訳): adapt-and-distill: ドメインのための小さくて高速で効果的な事前学習言語モデルの開発
- Authors: Yunzhi Yao, Shaohan Huang, Wenhui Wang, Li Dong, Furu Wei
- Abstract要約: 本稿では、特定のドメインに対して、小型で高速かつ効果的に事前訓練されたモデルを開発するための一般的なアプローチを提案する。
これは、既成の一般訓練モデルに適応し、ターゲットドメインでタスク非依存の知識蒸留を行うことによって達成される。
- 参考スコア(独自算出の注目度): 45.07506437436464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large pre-trained models have achieved great success in many natural language
processing tasks. However, when they are applied in specific domains, these
models suffer from domain shift and bring challenges in fine-tuning and online
serving for latency and capacity constraints. In this paper, we present a
general approach to developing small, fast and effective pre-trained models for
specific domains. This is achieved by adapting the off-the-shelf general
pre-trained models and performing task-agnostic knowledge distillation in
target domains. Specifically, we propose domain-specific vocabulary expansion
in the adaptation stage and employ corpus level occurrence probability to
choose the size of incremental vocabulary automatically. Then we systematically
explore different strategies to compress the large pre-trained models for
specific domains. We conduct our experiments in the biomedical and computer
science domain. The experimental results demonstrate that our approach achieves
better performance over the BERT BASE model in domain-specific tasks while 3.3x
smaller and 5.1x faster than BERT BASE. The code and pre-trained models are
available at https://aka.ms/adalm.
- Abstract(参考訳): 訓練済みの大きなモデルは多くの自然言語処理タスクで大きな成功を収めた。
しかしながら、特定のドメインに適用されると、これらのモデルはドメインシフトに悩まされ、レイテンシとキャパシティの制約に対して、微調整とオンラインサービスに課題をもたらす。
本稿では、特定の領域に対して、小さくて高速で効果的な事前学習モデルを開発するための一般的なアプローチを提案する。
これは、既成の一般訓練モデルに適応し、ターゲットドメインでタスク非依存の知識蒸留を行うことによって達成される。
具体的には,適応段階におけるドメイン固有語彙拡張を提案し,コーパスレベル発生確率を用いてインクリメンタル語彙のサイズを自動的に選択する。
そこで我々は,特定の領域に対する大規模事前学習モデルを圧縮するための様々な戦略を体系的に検討する。
我々は生物医学とコンピュータ科学の領域で実験を行う。
実験の結果、ドメイン固有タスクにおけるbertベースモデルよりもパフォーマンスが向上し、bertベースより3.3倍小さく5.1倍高速になった。
コードと事前学習されたモデルはhttps://aka.ms/adalm.com/で入手できる。
関連論文リスト
- Learning to Generalize Unseen Domains via Multi-Source Meta Learning for Text Classification [71.08024880298613]
テキスト分類の多元的領域一般化について検討する。
本稿では、複数の参照ドメインを使用して、未知のドメインで高い精度を達成可能なモデルをトレーニングするフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T07:46:21Z) - QAGAN: Adversarial Approach To Learning Domain Invariant Language
Features [0.76146285961466]
ドメイン不変の特徴を学習するための敵対的学習手法について検討する。
EMスコアが15.2%改善され、ドメイン外の検証データセットでF1スコアが5.6%向上しました。
論文 参考訳(メタデータ) (2022-06-24T17:42:18Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Domain Generalization using Pretrained Models without Fine-tuning [25.489714555859944]
微調整事前訓練モデルは、ドメイン一般化(DG)タスクにおいて一般的なプラクティスである。
ドメイン一般化のための特別アンサンブル学習(SEDGE)という,様々な事前学習モデルを活用するための新しいドメイン一般化パラダイムを提案する。
SEDGEは、DGタスクの最先端メソッドを含む強力なベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-03-09T09:33:59Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Efficient Domain Adaptation of Language Models via Adaptive Tokenization [5.058301279065432]
ドメイン固有のサブワードシーケンスは,ベースおよびドメイン固有のコーパスの条件付きトークン分布の分岐から,直接的に決定可能であることを示す。
我々の手法は、トークン化器の強化を用いた他の手法よりも、より小さなモデルで、トレーニングや推論の時間が少なくなります。
論文 参考訳(メタデータ) (2021-09-15T17:51:27Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z) - CALM: Continuous Adaptive Learning for Language Modeling [18.72860206714457]
自然言語処理コミュニティでは,大規模言語表現モデルのトレーニングが標準となっている。
これらの事前学習モデルが破滅的忘れという形で性能劣化を示すことを示す。
言語モデリングのための継続的適応学習CALM:複数のドメインにまたがる知識を保持するモデルをレンダリングする手法を提案する。
論文 参考訳(メタデータ) (2020-04-08T03:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。