論文の概要: Maximizing Communication Efficiency for Large-scale Training via 0/1
Adam
- arxiv url: http://arxiv.org/abs/2202.06009v1
- Date: Sat, 12 Feb 2022 08:02:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 17:14:30.789219
- Title: Maximizing Communication Efficiency for Large-scale Training via 0/1
Adam
- Title(参考訳): 0/1 adamによる大規模学習における通信効率の最大化
- Authors: Yucheng Lu, Conglong Li, Minjia Zhang, Christopher De Sa, Yuxiong He
- Abstract要約: 1ビット通信はモデルトレーニングのスケールアップに有効な手法であり、SGDで広く研究されている。
我々は2つの新しい手法により最先端の1ビットAdamを改善する0/1Adamを提案する。
- 参考スコア(独自算出の注目度): 49.426602335460295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 1-bit communication is an effective method to scale up model training, and
has been studied extensively on SGD. Its benefits, however, remain an open
question on Adam-based model training (e.g. BERT and GPT). In this paper, we
propose 0/1 Adam, which improves upon the state-of-the-art 1-bit Adam via two
novel designs: (1) adaptive variance state freezing, which eliminates the
requirement of running expensive full-precision communication at early stage of
training; (2) 1-bit sync, which allows skipping communication rounds with
bit-free synchronization over Adam's optimizer states, momentum and variance.
In theory, we provide convergence analysis for 0/1 Adam on smooth non-convex
objectives, and show the complexity bound is better than original Adam under
certain conditions. On various benchmarks such as BERT-Base/Large pretraining
and ImageNet, we demonstrate on up to 128 GPUs that 0/1 Adam is able to reduce
up to 90% of data volume, 54% of communication rounds, and achieve up to 2X
higher throughput compared to the state-of-the-art 1-bit Adam while enjoying
the same statistical convergence speed and end-to-end model accuracy on GLUE
dataset and ImageNet validation set.
- Abstract(参考訳): 1ビット通信はモデルトレーニングのスケールアップに有効な手法であり、SGDで広く研究されている。
しかし、Adamベースのモデルトレーニング(BERTやGPTなど)に関して、その利点は未解決のままである。
そこで本稿では,本論文で提案する0/1 adam について,(1) トレーニングの初期段階で高価な全精度通信を行う必要がなくなる適応分散状態凍結 (adaptive variance state freezing) と,(2) アダムのオプティマイザ状態,運動量,分散に対してビットフリーの同期で通信ラウンドをスキップできる1ビット同期 (1bit sync) という2つの新設計による改善を提案する。
理論的には、滑らかな非凸目的に対する 0/1 adam の収束解析を提供し、ある条件下では元の adam よりも複雑性境界の方が優れていることを示す。
BERT-Base/Large事前トレーニングやImageNetなどのベンチマークでは、0/1 Adamが最大128のGPUで、データボリュームの90%、通信ラウンドの54%、最先端の1ビットAdamと比較して最大2倍のスループットを実現し、GLUEデータセットとImageNet検証セットで同じ統計的収束速度とエンドツーエンドモデル精度を享受できることを示した。
関連論文リスト
- Towards Communication-efficient Federated Learning via Sparse and Aligned Adaptive Optimization [65.85963235502322]
Federated Adam (FedAdam) アルゴリズムはアップリンク通信オーバーヘッドの3倍の増大に悩まされている。
我々はFedAdam-SSMと呼ばれる新しいスパースなFedAdamアルゴリズムを提案する。
我々は,FedAdam-SSMが訓練したモデルと集中型Adamの差異を最小化することにより,スペーシフィケーションエラーによる学習性能劣化を軽減するためにSSMを最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:56:49Z) - Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。
アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。
本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文 参考訳(メタデータ) (2021-12-07T02:47:58Z) - How Do Adam and Training Strategies Help BNNs Optimization? [50.22482900678071]
我々は、AdamがBNNの粗い損失面を扱うのに適しており、より高い一般化能力でより良い最適値に達することを示す。
我々は、既存のAdamベースの最適化に基づいて、ImageNetデータセット上で70.5%のトップ1の精度を達成する簡単なトレーニングスキームを導出する。
論文 参考訳(メタデータ) (2021-06-21T17:59:51Z) - 1-bit Adam: Communication Efficient Large-Scale Training with Adam's
Convergence Speed [39.23129626683372]
通信は、ネットワーク帯域幅が限られている標準のTCPインターコネクトを持つコモディティシステムにおいて、大きなボトルネックとなっている。
最も効果的な方法の1つは、誤り補償圧縮であり、1ビット圧縮でも堅牢な収束速度を提供する。
我々は,通信容量を最大5倍に削減し,スケーラビリティを向上し,非圧縮Adamと同じ収束速度を提供する1ビットAdamを提案する。
論文 参考訳(メタデータ) (2021-02-04T21:02:19Z) - Towards Practical Adam: Non-Convexity, Convergence Theory, and
Mini-Batch Acceleration [12.744658958445024]
Adamは、ディープニューラルネットワークをトレーニングするための最も影響力のある適応アルゴリズムの1つです。
適応学習率の低下、大きなバッチサイズの採用など、既存のアプローチは、Adam型アルゴリズムの収束を促進しようとしている。
本稿では,履歴ベース学習率のパラメータにのみ依存する,代替的な簡易チェック条件を提案する。
論文 参考訳(メタデータ) (2021-01-14T06:42:29Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - APMSqueeze: A Communication Efficient Adam-Preconditioned Momentum SGD
Algorithm [39.110478306078974]
AdamはBERTやImageNetといった多くの重要なタスクをトレーニングするための効率性と正確性を保証する重要な最適化アルゴリズムである。
本稿では,bf ADAM bfプレコンディション付きbf Momentum SGDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-26T02:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。