Fugu-MT 論文翻訳(概要): Breaking MLPerf Training: A Case Study on Optimizing BERT

論文の概要: Breaking MLPerf Training: A Case Study on Optimizing BERT

arxiv url: http://arxiv.org/abs/2402.02447v1
Date: Sun, 4 Feb 2024 11:12:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 19:37:17.343311
Title: Breaking MLPerf Training: A Case Study on Optimizing BERT
Title（参考訳）: MLPerfトレーニングを破る: BERTの最適化を事例として
Authors: Yongdeok Kim, Jaehyung Ahn, Myeongwoo Kim, Changin Choi, Heejae Kim, Narankhuu Tuvshinjargal, Seungwon Lee, Yanzi Zhang, Yuan Pei, Xiongzhan Linghu, Jingkun Ma, Lin Chen, Yuehua Dai, Sungjoo Yoo
Abstract要約: 本稿では,BERTモデルの高速大規模学習のための新しいアプローチを提案する。分散BERTトレーニングは、様々な長さのサンプルによって特徴付けられるため、ロードバランシングが不可欠である。本稿では,1)負荷分散のためのデータセット階層化に基づく局所的事前ソートと,(2)帰納前のバケットワイド勾配クリッピングという2つの新しいアイデアを提案する。
参考スコア（独自算出の注目度）: 9.486916730173661
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Speeding up the large-scale distributed training is challenging in that it requires improving various components of training including load balancing, communication, optimizers, etc. We present novel approaches for fast large-scale training of BERT model which individually ameliorates each component thereby leading to a new level of BERT training performance. Load balancing is imperative in distributed BERT training since its training datasets are characterized by samples with various lengths. Communication cost, which is proportional to the scale of distributed training, needs to be hidden by useful computation. In addition, the optimizers, e.g., ADAM, LAMB, etc., need to be carefully re-evaluated in the context of large-scale distributed training. We propose two new ideas, (1) local presorting based on dataset stratification for load balancing and (2) bucket-wise gradient clipping before allreduce which allows us to benefit from the overlap of gradient computation and synchronization as well as the fast training of gradient clipping before allreduce. We also re-evaluate existing optimizers via hyperparameter optimization and utilize ADAM, which also contributes to fast training via larger batches than existing methods. Our proposed methods, all combined, give the fastest MLPerf BERT training of 25.1 (22.3) seconds on 1,024 NVIDIA A100 GPUs, which is 1.33x (1.13x) and 1.57x faster than the other top two (one) submissions to MLPerf v1.1 (v2.0). Our implementation and evaluation results are available at MLPerf v1.1~v2.1.
Abstract（参考訳）: 大規模な分散トレーニングのスピードアップには,ロードバランシングや通信,オプティマイザなど,トレーニングのさまざまなコンポーネントの改善が必要だ。本稿では,各コンポーネントを個別に改良し,BERTトレーニング性能の新たなレベルに導く,BERTモデルの高速大規模学習手法を提案する。トレーニングデータセットはさまざまな長さのサンプルによって特徴づけられるため、分散BERTトレーニングではロードバランシングが不可欠である。分散トレーニングの規模に比例する通信コストは、有用な計算によって隠蔽される必要がある。さらに、adam、lambなどのオプティマイザは、大規模分散トレーニングのコンテキストにおいて、慎重に再評価される必要がある。本研究では,(1)負荷分散のためのデータセット階層化に基づくローカルプリソート,(2)allreduce前のバケットワイズ勾配クリッピング,(2)勾配計算と同期の重なりとallreduce前の勾配クリッピングの高速トレーニングの恩恵を受ける,という2つの新しいアイデアを提案する。また、ハイパーパラメータ最適化による既存のオプティマイザの再評価を行い、adamを活用することで、既存のメソッドよりも大きなバッチによる高速なトレーニングに寄与します。提案手法はすべて組み合わせて,1024 nvidia a100 gpu上で,最大25.1秒 (22.3) のmlperf bertトレーニングを,他の上位2(1)のmlperf v1.1 (v2.0) への提案よりも1.33x (1.13x) と1.57倍高速に行う。実装と評価結果はMLPerf v1.1~v2.1で利用可能である。

関連論文リスト

Training Long-Context LLMs Efficiently via Chunk-wise Optimization [60.05884946552877]
textitSequential Chunk-wise Optimization (SeCO) は、長い入力を管理可能なチャンクに分割するメモリ効率の訓練パラダイムである。 textitSparse Chunk-wise Optimization (SpaCO)を導入し、特定のチャンクへの勾配を選択的に伝播することで計算オーバーヘッドを削減する。 SpaCOは、コンテキスト長からバックプロパゲーションの計算コストを分離し、シーケンスが長くなるにつれて、トレーニング時間が徐々に推論時間に収束することを可能にする。
論文参考訳（メタデータ） (2025-05-22T14:11:34Z)
Efficient Neural Network Training via Subset Pretraining [5.352839075466439]
ニューラルネットワークのトレーニングでは、バッチ上で計算された部分勾配を使用するのが一般的である。トレーニングセットの損失最小限は、そのサブセットのミニマによって適切に近似されることが期待できる。実験の結果従来の訓練に匹敵する結果に達できることが確認されました。
論文参考訳（メタデータ） (2024-10-21T21:31:12Z)
Improving Pretraining Data Using Perplexity Correlations [56.41097718862742]
我々は,LLM学習を必要とせず,高品質な事前学習データを選択するフレームワークを提案する。我々は,パープレキシティ-ベンチマーク相関の推定を中心に,データ選択のための新しい統計フレームワークを構築した。提案手法は,DataComp-LMで見つかった最高のデータセレクタをマッチングしながら,各ベンチマークでDSIRより優れている。
論文参考訳（メタデータ） (2024-09-09T17:23:29Z)
CoMERA: Computing- and Memory-Efficient Training via Rank-Adaptive Tensor Optimization [10.319009303849109]
ディープラーニングレコメンデーションシステムや基礎言語(あるいはマルチモーダル)モデルといった大規模なAIモデルのトレーニングには、膨大なGPUと計算時間を要する。 CoMERAは、多目的最適化の定式化により、エンドツーエンドのテンソル圧縮トレーニングを実現する。 CoMERAは1回のバッチトレーニングでテストされた6エンコーダトランスで、GaLoreよりも2倍高速で、9倍高速である。
論文参考訳（メタデータ） (2024-05-23T09:52:15Z)
Balance is Essence: Accelerating Sparse Training via Adaptive Gradient Correction [29.61757744974324]
ディープニューラルネットワークでは、メモリと計算コストが大幅に削減される。スパーストレーニングは、これらのコストを削減する最も一般的な手法の1つである。本研究では,この問題を克服し,時空協調効率の実現を目指す。
論文参考訳（メタデータ） (2023-01-09T18:50:03Z)
Distributed Adversarial Training to Robustify Deep Neural Networks at Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-13T15:39:43Z)
Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文参考訳（メタデータ） (2022-04-02T09:50:19Z)
Federated Dynamic Sparse Training: Computing Less, Communicating Less, Yet Learning Better [88.28293442298015]
Federated Learning (FL)は、クラウドからリソース制限されたエッジデバイスへの機械学習ワークロードの分散を可能にする。我々は、FedDST(Federated Dynamic Sparse Training)と呼ばれる新しいFLフレームワークを開発し、実装し、実験的に検証する。 FedDSTは、ターゲットのフルネットワークからスパースサブネットワークを抽出し、訓練する動的プロセスである。
論文参考訳（メタデータ） (2021-12-18T02:26:38Z)
MEST: Accurate and Fast Memory-Economic Sparse Training Framework on the Edge [72.16021611888165]
本稿では,エッジデバイス上での高精度かつ高速な実行を目的とした,メモリ・エコノミクス・スパース・トレーニング(MEST)フレームワークを提案する。提案されているMESTフレームワークは、Elastic Mutation (EM)とSoft Memory Bound (&S)による拡張で構成されている。以上の結果から,スペーサマスクの動的探索においても,忘れられない例をその場で特定できることが示唆された。
論文参考訳（メタデータ） (2021-10-26T21:15:17Z)
Jigsaw Clustering for Unsupervised Visual Representation Learning [68.09280490213399]
本稿では,新しいjigsawクラスタリング・プレテキストタスクを提案する。本手法は画像内情報と画像間情報の両方を利用する。トレーニングバッチの半分しか使用されていない場合、コントラスト学習方法にも匹敵します。
論文参考訳（メタデータ） (2021-04-01T08:09:26Z)
Large-Scale Training System for 100-Million Classification at Alibaba [43.58719630882661]
極度の分類は深層学習に欠かせない話題になっています最後の出力層におけるメモリと爆発のため、数百万のクラスでディープモデルをトレーニングするのは非常に困難です。トレーニングプロセスを実現可能にするために、ハイブリッド並列トレーニングフレームワークを構築しています。第2に,GPUメモリ使用量と計算コストの両方を削減するKNNソフトマックスという新しいソフトマックス変種を提案する。
論文参考訳（メタデータ） (2021-02-09T06:53:31Z)
Progressively Stacking 2.0: A Multi-stage Layerwise Training Method for BERT Training Speedup [13.50984315473865]
BERTのトレーニング時間を短縮するために,効率的な多段階階層トレーニング(MSLT)手法を提案する。提案されたトレーニング戦略では、上位層のみが後方計算に参加し、ほとんどの層は前方計算にのみ参加する。実験結果から,提案手法は性能劣化を伴わずに110%以上のトレーニングスピードアップを達成できることが示唆された。
論文参考訳（メタデータ） (2020-11-27T10:00:22Z)
Accelerated Large Batch Optimization of BERT Pretraining in 54 minutes [9.213729275749452]
そこで本研究では,大規模ミニバッチの学習効率を向上させるため,LANSと呼ばれる高速化勾配法を提案する。 192のAWS EC2 P3dn.24xlargeインスタンスで54分かかり、SQuAD v1.1で目標F1スコアが90.5以上に達する。
論文参考訳（メタデータ） (2020-06-24T05:00:41Z)
Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文参考訳（メタデータ） (2020-03-10T05:52:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。