論文の概要: Progressively Stacking 2.0: A Multi-stage Layerwise Training Method for
BERT Training Speedup
- arxiv url: http://arxiv.org/abs/2011.13635v1
- Date: Fri, 27 Nov 2020 10:00:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 02:05:49.300447
- Title: Progressively Stacking 2.0: A Multi-stage Layerwise Training Method for
BERT Training Speedup
- Title(参考訳): Progressively Stacking 2.0: BERTトレーニングスピードアップのための多段階階層トレーニング手法
- Authors: Cheng Yang, Shengnan Wang, Chao Yang, Yuechuan Li, Ru He, Jingqiao
Zhang
- Abstract要約: BERTのトレーニング時間を短縮するために,効率的な多段階階層トレーニング(MSLT)手法を提案する。
提案されたトレーニング戦略では、上位層のみが後方計算に参加し、ほとんどの層は前方計算にのみ参加する。
実験結果から,提案手法は性能劣化を伴わずに110%以上のトレーニングスピードアップを達成できることが示唆された。
- 参考スコア(独自算出の注目度): 13.50984315473865
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pre-trained language models, such as BERT, have achieved significant accuracy
gain in many natural language processing tasks. Despite its effectiveness, the
huge number of parameters makes training a BERT model computationally very
challenging. In this paper, we propose an efficient multi-stage layerwise
training (MSLT) approach to reduce the training time of BERT. We decompose the
whole training process into several stages. The training is started from a
small model with only a few encoder layers and we gradually increase the depth
of the model by adding new encoder layers. At each stage, we only train the top
(near the output layer) few encoder layers which are newly added. The
parameters of the other layers which have been trained in the previous stages
will not be updated in the current stage. In BERT training, the backward
computation is much more time-consuming than the forward computation,
especially in the distributed training setting in which the backward
computation time further includes the communication time for gradient
synchronization. In the proposed training strategy, only top few layers
participate in backward computation, while most layers only participate in
forward computation. Hence both the computation and communication efficiencies
are greatly improved. Experimental results show that the proposed method can
achieve more than 110% training speedup without significant performance
degradation.
- Abstract(参考訳): BERTのような事前訓練された言語モデルは、多くの自然言語処理タスクにおいて大幅な精度向上を実現している。
その有効性にもかかわらず、膨大な数のパラメータがBERTモデルのトレーニングを非常に困難にしている。
本稿では,BERTのトレーニング時間を削減するため,効率的な多段階階層トレーニング(MSLT)手法を提案する。
トレーニングプロセス全体をいくつかの段階に分割する。
トレーニングは、少数のエンコーダ層しか持たない小さなモデルから始まり、新しいエンコーダ層を追加することで、徐々にモデルの深さを増加させます。
それぞれの段階で、新たに追加されるエンコーダ層のトップ(出力層の近くに)のみをトレーニングします。
以前の段階でトレーニングされた他のレイヤのパラメータは、現在の段階では更新されない。
BERTトレーニングでは、特に後方の計算時間が勾配同期のための通信時間を含む分散トレーニング環境では、後方の計算の方が前方の計算よりもはるかに時間がかかる。
提案されたトレーニング戦略では、上位層のみが後方計算に参加し、ほとんどの層は前方計算にのみ参加する。
これにより、計算効率と通信効率が大幅に向上する。
実験の結果,本手法は性能低下を伴わずに110%以上のトレーニングスピードアップを達成できることがわかった。
関連論文リスト
- Patch-Level Training for Large Language Models [69.67438563485887]
本稿では,Large Language Models (LLM) に対するパッチレベルのトレーニングを紹介する。
パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。
これに続いて、モデルは推論モードに合わせて、残りのトレーニングデータに対するトークンレベルのトレーニングを継続する。
論文 参考訳(メタデータ) (2024-07-17T15:48:39Z) - Breaking MLPerf Training: A Case Study on Optimizing BERT [9.486916730173661]
本稿では,BERTモデルの高速大規模学習のための新しいアプローチを提案する。
分散BERTトレーニングは、様々な長さのサンプルによって特徴付けられるため、ロードバランシングが不可欠である。
本稿では,1)負荷分散のためのデータセット階層化に基づく局所的事前ソートと,(2)帰納前のバケットワイド勾配クリッピングという2つの新しいアイデアを提案する。
論文 参考訳(メタデータ) (2024-02-04T11:12:17Z) - Towards Memory- and Time-Efficient Backpropagation for Training Spiking
Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。
本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。
BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文 参考訳(メタデータ) (2023-02-28T05:01:01Z) - Staged Training for Transformer Language Models [47.99321376123886]
私たちは、小さなモデルから始まり、トレーニングに使用する計算量を漸進的に増加させる、段階的なトレーニング設定を考えます。
トレーニングプロセスは、各ステージを前のステージの出力で初期化することにより、計算を効果的に再利用する。
成長オペレーターを実証的に検証し、自己回帰言語モデルのトレーニングを行い、最大22%の計算貯蓄量を示した。
論文 参考訳(メタデータ) (2022-03-11T19:05:42Z) - Training ELECTRA Augmented with Multi-word Selection [53.77046731238381]
本稿では,マルチタスク学習に基づくELECTRAの改良を目的としたテキストエンコーダ事前学習手法を提案する。
具体的には、識別器を訓練し、置換トークンを同時に検出し、候補集合から元のトークンを選択する。
論文 参考訳(メタデータ) (2021-05-31T23:19:00Z) - Large-Scale Training System for 100-Million Classification at Alibaba [43.58719630882661]
極度の分類は 深層学習に欠かせない話題になっています
最後の出力層におけるメモリと爆発のため、数百万のクラスでディープモデルをトレーニングするのは非常に困難です。
トレーニングプロセスを実現可能にするために、ハイブリッド並列トレーニングフレームワークを構築しています。
第2に,GPUメモリ使用量と計算コストの両方を削減するKNNソフトマックスという新しいソフトマックス変種を提案する。
論文 参考訳(メタデータ) (2021-02-09T06:53:31Z) - EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets [106.79387235014379]
EarlyBERTは、大規模言語モデルの事前学習と微調整の両方に適用できる一般的な計算効率のトレーニングアルゴリズムである。
BERTトレーニングの初期段階において、構造化された入賞チケットを最初に識別し、効率的なトレーニングに使用します。
EarlyBERTは、トレーニング時間を3545%短縮した標準BERTと同等のパフォーマンスを簡単に達成します。
論文 参考訳(メタデータ) (2020-12-31T20:38:20Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - Accelerating Training of Transformer-Based Language Models with
Progressive Layer Dropping [24.547833264405355]
提案手法は, サンプルあたり平均24%の時間短縮を実現し, プレトレーニングをベースラインの2.5倍の速度で行うことができる。
トレーニング済みのモデルでは,より高速ながら,強力な知識伝達能力を備え,ベースラインよりも高いGLUEスコアを達成できる。
論文 参考訳(メタデータ) (2020-10-26T06:50:07Z) - Accelerated Large Batch Optimization of BERT Pretraining in 54 minutes [9.213729275749452]
そこで本研究では,大規模ミニバッチの学習効率を向上させるため,LANSと呼ばれる高速化勾配法を提案する。
192のAWS EC2 P3dn.24xlargeインスタンスで54分かかり、SQuAD v1.1で目標F1スコアが90.5以上に達する。
論文 参考訳(メタデータ) (2020-06-24T05:00:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。