論文の概要: Breaking MLPerf Training: A Case Study on Optimizing BERT
- arxiv url: http://arxiv.org/abs/2402.02447v1
- Date: Sun, 4 Feb 2024 11:12:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 19:37:17.343311
- Title: Breaking MLPerf Training: A Case Study on Optimizing BERT
- Title(参考訳): MLPerfトレーニングを破る: BERTの最適化を事例として
- Authors: Yongdeok Kim, Jaehyung Ahn, Myeongwoo Kim, Changin Choi, Heejae Kim,
Narankhuu Tuvshinjargal, Seungwon Lee, Yanzi Zhang, Yuan Pei, Xiongzhan
Linghu, Jingkun Ma, Lin Chen, Yuehua Dai, Sungjoo Yoo
- Abstract要約: 本稿では,BERTモデルの高速大規模学習のための新しいアプローチを提案する。
分散BERTトレーニングは、様々な長さのサンプルによって特徴付けられるため、ロードバランシングが不可欠である。
本稿では,1)負荷分散のためのデータセット階層化に基づく局所的事前ソートと,(2)帰納前のバケットワイド勾配クリッピングという2つの新しいアイデアを提案する。
- 参考スコア(独自算出の注目度): 9.486916730173661
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speeding up the large-scale distributed training is challenging in that it
requires improving various components of training including load balancing,
communication, optimizers, etc. We present novel approaches for fast
large-scale training of BERT model which individually ameliorates each
component thereby leading to a new level of BERT training performance. Load
balancing is imperative in distributed BERT training since its training
datasets are characterized by samples with various lengths. Communication cost,
which is proportional to the scale of distributed training, needs to be hidden
by useful computation. In addition, the optimizers, e.g., ADAM, LAMB, etc.,
need to be carefully re-evaluated in the context of large-scale distributed
training. We propose two new ideas, (1) local presorting based on dataset
stratification for load balancing and (2) bucket-wise gradient clipping before
allreduce which allows us to benefit from the overlap of gradient computation
and synchronization as well as the fast training of gradient clipping before
allreduce. We also re-evaluate existing optimizers via hyperparameter
optimization and utilize ADAM, which also contributes to fast training via
larger batches than existing methods. Our proposed methods, all combined, give
the fastest MLPerf BERT training of 25.1 (22.3) seconds on 1,024 NVIDIA A100
GPUs, which is 1.33x (1.13x) and 1.57x faster than the other top two (one)
submissions to MLPerf v1.1 (v2.0). Our implementation and evaluation results
are available at MLPerf v1.1~v2.1.
- Abstract(参考訳): 大規模な分散トレーニングのスピードアップには,ロードバランシングや通信,オプティマイザなど,トレーニングのさまざまなコンポーネントの改善が必要だ。
本稿では,各コンポーネントを個別に改良し,BERTトレーニング性能の新たなレベルに導く,BERTモデルの高速大規模学習手法を提案する。
トレーニングデータセットはさまざまな長さのサンプルによって特徴づけられるため、分散BERTトレーニングではロードバランシングが不可欠である。
分散トレーニングの規模に比例する通信コストは、有用な計算によって隠蔽される必要がある。
さらに、adam、lambなどのオプティマイザは、大規模分散トレーニングのコンテキストにおいて、慎重に再評価される必要がある。
本研究では,(1)負荷分散のためのデータセット階層化に基づくローカルプリソート,(2)allreduce前のバケットワイズ勾配クリッピング,(2)勾配計算と同期の重なりとallreduce前の勾配クリッピングの高速トレーニングの恩恵を受ける,という2つの新しいアイデアを提案する。
また、ハイパーパラメータ最適化による既存のオプティマイザの再評価を行い、adamを活用することで、既存のメソッドよりも大きなバッチによる高速なトレーニングに寄与します。
提案手法はすべて組み合わせて,1024 nvidia a100 gpu上で,最大25.1秒 (22.3) のmlperf bertトレーニングを,他の上位2(1)のmlperf v1.1 (v2.0) への提案よりも1.33x (1.13x) と1.57倍高速に行う。
実装と評価結果はMLPerf v1.1~v2.1で利用可能である。
関連論文リスト
- Efficient Neural Network Training via Subset Pretraining [5.352839075466439]
ニューラルネットワークのトレーニングでは、バッチ上で計算された部分勾配を使用するのが一般的である。
トレーニングセットの損失最小限は、そのサブセットのミニマによって適切に近似されることが期待できる。
実験の結果 従来の訓練に匹敵する結果に 達できることが確認されました。
論文 参考訳(メタデータ) (2024-10-21T21:31:12Z) - CoMERA: Computing- and Memory-Efficient Training via Rank-Adaptive Tensor Optimization [10.319009303849109]
ディープラーニングレコメンデーションシステムや基礎言語(あるいはマルチモーダル)モデルといった大規模なAIモデルのトレーニングには、膨大なGPUと計算時間を要する。
CoMERAは、多目的最適化の定式化により、エンドツーエンドのテンソル圧縮トレーニングを実現する。
CoMERAは1回のバッチトレーニングでテストされた6エンコーダトランスで、GaLoreよりも2倍高速で、9倍高速である。
論文 参考訳(メタデータ) (2024-05-23T09:52:15Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Federated Dynamic Sparse Training: Computing Less, Communicating Less,
Yet Learning Better [88.28293442298015]
Federated Learning (FL)は、クラウドからリソース制限されたエッジデバイスへの機械学習ワークロードの分散を可能にする。
我々は、FedDST(Federated Dynamic Sparse Training)と呼ばれる新しいFLフレームワークを開発し、実装し、実験的に検証する。
FedDSTは、ターゲットのフルネットワークからスパースサブネットワークを抽出し、訓練する動的プロセスである。
論文 参考訳(メタデータ) (2021-12-18T02:26:38Z) - MEST: Accurate and Fast Memory-Economic Sparse Training Framework on the
Edge [72.16021611888165]
本稿では,エッジデバイス上での高精度かつ高速な実行を目的とした,メモリ・エコノミクス・スパース・トレーニング(MEST)フレームワークを提案する。
提案されているMESTフレームワークは、Elastic Mutation (EM)とSoft Memory Bound (&S)による拡張で構成されている。
以上の結果から,スペーサマスクの動的探索においても,忘れられない例をその場で特定できることが示唆された。
論文 参考訳(メタデータ) (2021-10-26T21:15:17Z) - Jigsaw Clustering for Unsupervised Visual Representation Learning [68.09280490213399]
本稿では,新しいjigsawクラスタリング・プレテキストタスクを提案する。
本手法は画像内情報と画像間情報の両方を利用する。
トレーニングバッチの半分しか使用されていない場合、コントラスト学習方法にも匹敵します。
論文 参考訳(メタデータ) (2021-04-01T08:09:26Z) - Large-Scale Training System for 100-Million Classification at Alibaba [43.58719630882661]
極度の分類は 深層学習に欠かせない話題になっています
最後の出力層におけるメモリと爆発のため、数百万のクラスでディープモデルをトレーニングするのは非常に困難です。
トレーニングプロセスを実現可能にするために、ハイブリッド並列トレーニングフレームワークを構築しています。
第2に,GPUメモリ使用量と計算コストの両方を削減するKNNソフトマックスという新しいソフトマックス変種を提案する。
論文 参考訳(メタデータ) (2021-02-09T06:53:31Z) - Progressively Stacking 2.0: A Multi-stage Layerwise Training Method for
BERT Training Speedup [13.50984315473865]
BERTのトレーニング時間を短縮するために,効率的な多段階階層トレーニング(MSLT)手法を提案する。
提案されたトレーニング戦略では、上位層のみが後方計算に参加し、ほとんどの層は前方計算にのみ参加する。
実験結果から,提案手法は性能劣化を伴わずに110%以上のトレーニングスピードアップを達成できることが示唆された。
論文 参考訳(メタデータ) (2020-11-27T10:00:22Z) - Accelerated Large Batch Optimization of BERT Pretraining in 54 minutes [9.213729275749452]
そこで本研究では,大規模ミニバッチの学習効率を向上させるため,LANSと呼ばれる高速化勾配法を提案する。
192のAWS EC2 P3dn.24xlargeインスタンスで54分かかり、SQuAD v1.1で目標F1スコアが90.5以上に達する。
論文 参考訳(メタデータ) (2020-06-24T05:00:41Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。