論文の概要: Accelerated Large Batch Optimization of BERT Pretraining in 54 minutes
- arxiv url: http://arxiv.org/abs/2006.13484v2
- Date: Fri, 18 Sep 2020 08:46:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 08:57:08.242170
- Title: Accelerated Large Batch Optimization of BERT Pretraining in 54 minutes
- Title(参考訳): BERTプレトレーニングの54分での大バッチ最適化
- Authors: Shuai Zheng and Haibin Lin and Sheng Zha and Mu Li
- Abstract要約: そこで本研究では,大規模ミニバッチの学習効率を向上させるため,LANSと呼ばれる高速化勾配法を提案する。
192のAWS EC2 P3dn.24xlargeインスタンスで54分かかり、SQuAD v1.1で目標F1スコアが90.5以上に達する。
- 参考スコア(独自算出の注目度): 9.213729275749452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: BERT has recently attracted a lot of attention in natural language
understanding (NLU) and achieved state-of-the-art results in various NLU tasks.
However, its success requires large deep neural networks and huge amount of
data, which result in long training time and impede development progress. Using
stochastic gradient methods with large mini-batch has been advocated as an
efficient tool to reduce the training time. Along this line of research, LAMB
is a prominent example that reduces the training time of BERT from 3 days to 76
minutes on a TPUv3 Pod. In this paper, we propose an accelerated gradient
method called LANS to improve the efficiency of using large mini-batches for
training. As the learning rate is theoretically upper bounded by the inverse of
the Lipschitz constant of the function, one cannot always reduce the number of
optimization iterations by selecting a larger learning rate. In order to use
larger mini-batch size without accuracy loss, we develop a new learning rate
scheduler that overcomes the difficulty of using large learning rate. Using the
proposed LANS method and the learning rate scheme, we scaled up the mini-batch
sizes to 96K and 33K in phases 1 and 2 of BERT pretraining, respectively. It
takes 54 minutes on 192 AWS EC2 P3dn.24xlarge instances to achieve a target F1
score of 90.5 or higher on SQuAD v1.1, achieving the fastest BERT training time
in the cloud.
- Abstract(参考訳): BERTは最近、自然言語理解(NLU)に多くの注目を集め、様々なNLUタスクで最先端の結果を得た。
しかし、その成功には巨大なディープニューラルネットワークと膨大なデータが必要であり、長いトレーニング時間と開発進捗の妨げとなる。
大規模ミニバッチを用いた確率的勾配手法は、トレーニング時間を短縮するための効率的なツールとして提唱されている。
この一連の研究の中で、LAMBはBERTのトレーニング時間をTPUv3 Podで3日から76分に短縮する顕著な例である。
本稿では,大規模ミニバッチの学習効率を向上させるため,LANSと呼ばれる高速化勾配法を提案する。
学習速度は関数のリプシッツ定数の逆数によって理論上界にあるので、より大きな学習率を選択することで最適化イテレーションの回数を常に減らすことはできない。
精度を損なわずにより大きなミニバッチサイズを使用するために,大規模学習率の難しさを克服する新しい学習速度スケジューラを開発した。
提案手法と学習率スキームを用いて,BERTプレトレーニングのフェーズ1と2において,ミニバッチサイズを96K,33Kにスケールアップした。
192のAWS EC2 P3dn.24xlargeインスタンスで54分かかり、SQuAD v1.1で目標F1スコアが90.5以上に達する。
関連論文リスト
- Breaking MLPerf Training: A Case Study on Optimizing BERT [9.486916730173661]
本稿では,BERTモデルの高速大規模学習のための新しいアプローチを提案する。
分散BERTトレーニングは、様々な長さのサンプルによって特徴付けられるため、ロードバランシングが不可欠である。
本稿では,1)負荷分散のためのデータセット階層化に基づく局所的事前ソートと,(2)帰納前のバケットワイド勾配クリッピングという2つの新しいアイデアを提案する。
論文 参考訳(メタデータ) (2024-02-04T11:12:17Z) - Towards Memory- and Time-Efficient Backpropagation for Training Spiking
Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。
本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。
BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文 参考訳(メタデータ) (2023-02-28T05:01:01Z) - Influence-Based Mini-Batching for Graph Neural Networks [0.0]
グラフニューラルネットワークに対する影響に基づくミニバッチを提案する。
IBMBは従来の手法に比べて最大130倍の推論を高速化する。
これにより、エポック毎のトレーニングが最大18倍、ランタイム毎のコンバージェンス毎のコンバージェンスの最大17倍高速になる。
論文 参考訳(メタデータ) (2022-12-18T13:27:01Z) - Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch
Size [58.762959061522736]
学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。
そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
論文 参考訳(メタデータ) (2022-11-20T21:48:25Z) - Automated Learning Rate Scheduler for Large-batch Training [24.20872850681828]
大規模バッチトレーニングは、ディープラーニングにおける大規模データセットとモデルを活用する上で不可欠である。
小規模なバッチトレーニングと同等のパフォーマンスを達成するために、特別に設計された学習率(LR)スケジュールを必要とすることが多い。
本稿では,ニューラルネットワークのトレーニングに有効なLR自動スケジューリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T05:23:13Z) - Concurrent Adversarial Learning for Large-Batch Training [83.55868483681748]
逆学習は、決定面を滑らかにし、平坦な領域に偏りを付けるための自然な選択である。
本稿では,安定パラメータを用いて,逐次勾配計算を分離するConcurrent Adversarial Learning(ConAdv)手法を提案する。
これは、ResNet-50トレーニングバッチサイズを96Kにスケールする最初の作業である。
論文 参考訳(メタデータ) (2021-06-01T04:26:02Z) - EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets [106.79387235014379]
EarlyBERTは、大規模言語モデルの事前学習と微調整の両方に適用できる一般的な計算効率のトレーニングアルゴリズムである。
BERTトレーニングの初期段階において、構造化された入賞チケットを最初に識別し、効率的なトレーニングに使用します。
EarlyBERTは、トレーニング時間を3545%短縮した標準BERTと同等のパフォーマンスを簡単に達成します。
論文 参考訳(メタデータ) (2020-12-31T20:38:20Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - Progressively Stacking 2.0: A Multi-stage Layerwise Training Method for
BERT Training Speedup [13.50984315473865]
BERTのトレーニング時間を短縮するために,効率的な多段階階層トレーニング(MSLT)手法を提案する。
提案されたトレーニング戦略では、上位層のみが後方計算に参加し、ほとんどの層は前方計算にのみ参加する。
実験結果から,提案手法は性能劣化を伴わずに110%以上のトレーニングスピードアップを達成できることが示唆された。
論文 参考訳(メタデータ) (2020-11-27T10:00:22Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。