論文の概要: CoRe: An Efficient Coarse-refined Training Framework for BERT
- arxiv url: http://arxiv.org/abs/2011.13633v2
- Date: Thu, 18 Feb 2021 03:39:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 02:06:11.789907
- Title: CoRe: An Efficient Coarse-refined Training Framework for BERT
- Title(参考訳): CoRe: BERTのための効率的な粗調整トレーニングフレームワーク
- Authors: Cheng Yang, Shengnan Wang, Yuechuan Li, Chao Yang, Ming Yan, Jingqiao
Zhang, Fangquan Lin
- Abstract要約: 本稿では,BERT のトレーニングを高速化するために,CoRe という新たな粗調整トレーニングフレームワークを提案する。
第1フェーズでは、元のBERTよりもはるかに少ないパラメータとモデル複雑さを持つ緩和されたBERTモデルを構築した。
第2段階では、訓練された緩和されたBERTモデルを元のBERTに変換し、さらにモデルを再訓練する。
- 参考スコア(独自算出の注目度): 17.977099111813644
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In recent years, BERT has made significant breakthroughs on many natural
language processing tasks and attracted great attentions. Despite its accuracy
gains, the BERT model generally involves a huge number of parameters and needs
to be trained on massive datasets, so training such a model is computationally
very challenging and time-consuming. Hence, training efficiency should be a
critical issue. In this paper, we propose a novel coarse-refined training
framework named CoRe to speed up the training of BERT. Specifically, we
decompose the training process of BERT into two phases. In the first phase, by
introducing fast attention mechanism and decomposing the large parameters in
the feed-forward network sub-layer, we construct a relaxed BERT model which has
much less parameters and much lower model complexity than the original BERT, so
the relaxed model can be quickly trained. In the second phase, we transform the
trained relaxed BERT model into the original BERT and further retrain the
model. Thanks to the desired initialization provided by the relaxed model, the
retraining phase requires much less training steps, compared with training an
original BERT model from scratch with a random initialization. Experimental
results show that the proposed CoRe framework can greatly reduce the training
time without reducing the performance.
- Abstract(参考訳): 近年、バートは多くの自然言語処理タスクにおいて大きなブレークスルーを行い、大きな注目を集めている。
その正確さにもかかわらず、BERTモデルは一般的に大量のパラメータを伴い、大量のデータセットでトレーニングする必要があるため、そのようなモデルのトレーニングは計算的に非常に困難で時間を要する。
したがって、訓練効率は重要な問題である。
本稿では,BERT のトレーニングを高速化するために,CoRe という新しい粗調整トレーニングフレームワークを提案する。
具体的には,BERTの学習過程を2段階に分割する。
第1フェーズでは、高速な注意機構を導入し、フィードフォワードネットワークサブレイヤで大きなパラメータを分解することにより、元のBERTよりもはるかに少ないパラメータとモデル複雑さを持つ緩和されたBERTモデルを構築し、緩和されたモデルを迅速に訓練することができる。
第2段階では、訓練された緩和されたBERTモデルを元のBERTに変換し、さらにモデルを再訓練する。
緩和モデルが提供する望ましい初期化のおかげで、リトレーニングフェーズは、スクラッチからオリジナルのBERTモデルをランダムな初期化でトレーニングするよりも、はるかに少ないトレーニングステップを必要とする。
実験の結果,提案するCoReフレームワークは,性能を低下させることなく,トレーニング時間を大幅に短縮できることがわかった。
関連論文リスト
- A Multi-Level Framework for Accelerating Training Transformer Models [5.268960238774481]
大規模ディープラーニングモデルの訓練は、コンピューティングパワーに対する前例のない需要をもたらしている。
本稿では,Coalescing, De-Coalescing, Interpolation に基づく,加速度のトレーニングのためのマルチレベルフレームワークを提案する。
提案手法は,BERT/GPT-Baseモデルのトレーニングにおいて約20%,BERT-Largeモデルのトレーニングにおいて最大51.6%のコスト削減を実現する。
論文 参考訳(メタデータ) (2024-04-07T03:04:34Z) - Effective and Efficient Training for Sequential Recommendation using
Recency Sampling [91.02268704681124]
本稿では,新しいRecency-based Smpling of Sequencesトレーニング目標を提案する。
提案手法により拡張されたモデルにより,最先端のBERT4Recに近い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-06T13:06:31Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Speeding up Deep Model Training by Sharing Weights and Then Unsharing [23.35912133295125]
本稿では,BERTモデルの簡易かつ効率的な学習手法を提案する。
提案手法では,繰り返しモジュールのスタックを含むBERTの特別な構造を利用する。
論文 参考訳(メタデータ) (2021-10-08T01:23:34Z) - Fast Certified Robust Training via Better Initialization and Shorter
Warmup [95.81628508228623]
我々は,新しいIPPと原理正規化器を提案し,認証境界を安定化させる。
バッチ正規化(BN)は、認定トレーニングのための最高のパフォーマンスのネットワークを構築するための重要なアーキテクチャ要素です。
論文 参考訳(メタデータ) (2021-03-31T17:58:58Z) - Self-Supervised Pretraining Improves Self-Supervised Pretraining [83.1423204498361]
自己教師付き事前トレーニングには、高価で長い計算と大量のデータが必要で、データ拡張に敏感である。
本稿では,既存の事前学習モデルを用いて事前学習プロセスを初期化することにより,収束時間を短縮し,精度を向上させる階層的事前学習(HPT)について検討する。
HPTが最大80倍速く収束し、タスク全体の精度が向上し、自己監視された事前トレーニングプロセスの堅牢性が、画像増強ポリシーまたは事前トレーニングデータの量の変化に改善されることを示します。
論文 参考訳(メタデータ) (2021-03-23T17:37:51Z) - EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets [106.79387235014379]
EarlyBERTは、大規模言語モデルの事前学習と微調整の両方に適用できる一般的な計算効率のトレーニングアルゴリズムである。
BERTトレーニングの初期段階において、構造化された入賞チケットを最初に識別し、効率的なトレーニングに使用します。
EarlyBERTは、トレーニング時間を3545%短縮した標準BERTと同等のパフォーマンスを簡単に達成します。
論文 参考訳(メタデータ) (2020-12-31T20:38:20Z) - Progressively Stacking 2.0: A Multi-stage Layerwise Training Method for
BERT Training Speedup [13.50984315473865]
BERTのトレーニング時間を短縮するために,効率的な多段階階層トレーニング(MSLT)手法を提案する。
提案されたトレーニング戦略では、上位層のみが後方計算に参加し、ほとんどの層は前方計算にのみ参加する。
実験結果から,提案手法は性能劣化を伴わずに110%以上のトレーニングスピードアップを達成できることが示唆された。
論文 参考訳(メタデータ) (2020-11-27T10:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。