論文の概要: EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets
- arxiv url: http://arxiv.org/abs/2101.00063v1
- Date: Thu, 31 Dec 2020 20:38:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:26:33.237368
- Title: EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets
- Title(参考訳): EarlyBERT:Early-bird Lottery Ticketsによる効率的なBERTトレーニング
- Authors: Xiaohan Chen, Yu Cheng, Shuohang Wang, Zhe Gan, Zhangyang Wang,
Jingjing Liu
- Abstract要約: EarlyBERTは、大規模言語モデルの事前学習と微調整の両方に適用できる一般的な計算効率のトレーニングアルゴリズムである。
BERTトレーニングの初期段階において、構造化された入賞チケットを最初に識別し、効率的なトレーニングに使用します。
EarlyBERTは、トレーニング時間を3545%短縮した標準BERTと同等のパフォーマンスを簡単に達成します。
- 参考スコア(独自算出の注目度): 106.79387235014379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep, heavily overparameterized language models such as BERT, XLNet and T5
have achieved impressive success in many NLP tasks. However, their high model
complexity requires enormous computation resources and extremely long training
time for both pre-training and fine-tuning. Many works have studied model
compression on large NLP models, but only focus on reducing inference
cost/time, while still requiring expensive training process. Other works use
extremely large batch sizes to shorten the pre-training time at the expense of
high demand for computation resources. In this paper, inspired by the
Early-Bird Lottery Tickets studied for computer vision tasks, we propose
EarlyBERT, a general computationally-efficient training algorithm applicable to
both pre-training and fine-tuning of large-scale language models. We are the
first to identify structured winning tickets in the early stage of BERT
training, and use them for efficient training. Comprehensive pre-training and
fine-tuning experiments on GLUE and SQuAD downstream tasks show that EarlyBERT
easily achieves comparable performance to standard BERT with 35~45% less
training time.
- Abstract(参考訳): BERT、XLNet、T5といった非常に過度にパラメータ化された言語モデルは、多くのNLPタスクで驚くべき成功を収めた。
しかし、その高いモデルの複雑さは、事前学習と微調整の両方において、膨大な計算リソースと非常に長い訓練時間を必要とする。
多くの作品が大規模nlpモデルにおけるモデル圧縮を研究しているが、コスト/時間削減にのみ焦点をあてる一方で、高価なトレーニングプロセスも必要である。
他の作業では、非常に大きなバッチサイズを使用して、計算リソースの高需要を犠牲にして事前学習時間を短縮する。
本稿では,コンピュータビジョンタスクで研究されている早期鳥抽選券に着想を得て,大規模言語モデルの事前学習と微調整の両方に適用可能な汎用計算効率のトレーニングアルゴリズムであるearlybertを提案する。
BERTトレーニングの初期段階において、構造化された勝利チケットを最初に識別し、効率的なトレーニングに使用する。
GLUEおよびSQuADダウンストリームタスクの総合的な事前トレーニングおよび微調整実験により、EarlyBERTはトレーニング時間を35~45%削減した標準BERTと容易に同等のパフォーマンスを達成できることが示された。
関連論文リスト
- Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Curriculum Learning: A Regularization Method for Efficient and Stable
Billion-Scale GPT Model Pre-Training [18.640076155697415]
本稿では,自己回帰モデルによる事前学習の収束速度の向上を支援するカリキュラム学習に基づく手法を提案する。
評価の結果,カリキュラム学習により,バッチサイズが8倍,学習速度が4倍のGPT-2モデルを学習できることがわかった。
論文 参考訳(メタデータ) (2021-08-13T06:32:53Z) - Self-Supervised Pretraining Improves Self-Supervised Pretraining [83.1423204498361]
自己教師付き事前トレーニングには、高価で長い計算と大量のデータが必要で、データ拡張に敏感である。
本稿では,既存の事前学習モデルを用いて事前学習プロセスを初期化することにより,収束時間を短縮し,精度を向上させる階層的事前学習(HPT)について検討する。
HPTが最大80倍速く収束し、タスク全体の精度が向上し、自己監視された事前トレーニングプロセスの堅牢性が、画像増強ポリシーまたは事前トレーニングデータの量の変化に改善されることを示します。
論文 参考訳(メタデータ) (2021-03-23T17:37:51Z) - Progressively Stacking 2.0: A Multi-stage Layerwise Training Method for
BERT Training Speedup [13.50984315473865]
BERTのトレーニング時間を短縮するために,効率的な多段階階層トレーニング(MSLT)手法を提案する。
提案されたトレーニング戦略では、上位層のみが後方計算に参加し、ほとんどの層は前方計算にのみ参加する。
実験結果から,提案手法は性能劣化を伴わずに110%以上のトレーニングスピードアップを達成できることが示唆された。
論文 参考訳(メタデータ) (2020-11-27T10:00:22Z) - CoRe: An Efficient Coarse-refined Training Framework for BERT [17.977099111813644]
本稿では,BERT のトレーニングを高速化するために,CoRe という新たな粗調整トレーニングフレームワークを提案する。
第1フェーズでは、元のBERTよりもはるかに少ないパラメータとモデル複雑さを持つ緩和されたBERTモデルを構築した。
第2段階では、訓練された緩和されたBERTモデルを元のBERTに変換し、さらにモデルを再訓練する。
論文 参考訳(メタデータ) (2020-11-27T09:49:37Z) - Improving NER's Performance with Massive financial corpus [6.935911489364734]
大規模なディープニューラルネットワークのトレーニングには、大量の高品質なアノテーションデータが必要だが、その時間と労働コストは、小規模ビジネスには高すぎる。
企業名の認識タスクを,小規模かつ低品質なトレーニングデータを用いて開始し,モデルトレーニング速度の向上と最低労働コストによるパフォーマンスの予測を行う。
論文 参考訳(メタデータ) (2020-07-31T07:00:34Z) - The Lottery Ticket Hypothesis for Pre-trained BERT Networks [137.99328302234338]
自然言語処理(NLP)では、BERTのような巨大な事前学習モデルがトレーニングの標準出発点となっている。
並行して、抽選券仮説の研究により、NLPとコンピュータビジョンのモデルには、完全精度で個別にトレーニングできる小さなマッチングワークが含まれていることが示されている。
これらの観測と組み合わせて、トレーニング済みのBERTモデルにそのようなトレーニング可能なトランスファーブルワークが存在するかどうかを評価する。
論文 参考訳(メタデータ) (2020-07-23T19:35:39Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。