論文の概要: APMSqueeze: A Communication Efficient Adam-Preconditioned Momentum SGD
Algorithm
- arxiv url: http://arxiv.org/abs/2008.11343v2
- Date: Fri, 28 Aug 2020 03:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 21:20:39.456028
- Title: APMSqueeze: A Communication Efficient Adam-Preconditioned Momentum SGD
Algorithm
- Title(参考訳): apmsqueeze:adam-preconditioned momentum sgdアルゴリズム
- Authors: Hanlin Tang, Shaoduo Gan, Samyam Rajbhandari, Xiangru Lian, Ji Liu,
Yuxiong He, Ce Zhang
- Abstract要約: AdamはBERTやImageNetといった多くの重要なタスクをトレーニングするための効率性と正確性を保証する重要な最適化アルゴリズムである。
本稿では,bf ADAM bfプレコンディション付きbf Momentum SGDアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 39.110478306078974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adam is the important optimization algorithm to guarantee efficiency and
accuracy for training many important tasks such as BERT and ImageNet. However,
Adam is generally not compatible with information (gradient) compression
technology. Therefore, the communication usually becomes the bottleneck for
parallelizing Adam. In this paper, we propose a communication efficient {\bf
A}DAM {\bf p}reconditioned {\bf M}omentum SGD algorithm-- named APMSqueeze--
through an error compensated method compressing gradients. The proposed
algorithm achieves a similar convergence efficiency to Adam in term of epochs,
but significantly reduces the running time per epoch. In terms of end-to-end
performance (including the full-precision pre-condition step), APMSqueeze is
able to provide {sometimes by up to $2-10\times$ speed-up depending on network
bandwidth.} We also conduct theoretical analysis on the convergence and
efficiency.
- Abstract(参考訳): AdamはBERTやImageNetといった多くの重要なタスクをトレーニングするための効率性と精度を保証する重要な最適化アルゴリズムである。
しかし、Adamは一般に情報圧縮技術とは互換性がない。
したがって、通信は通常Adamの並列化のボトルネックとなる。
本稿では, 勾配を圧縮する誤差補償法を用いて, 通信効率のよい {\bf A}DAM {\bf p} 条件付き SGD アルゴリズム-APMSqueeze- を提案する。
提案アルゴリズムは,エポックスの観点からAdamと同様の収束効率を実現するが,エポック毎の実行時間を著しく短縮する。
エンドツーエンドのパフォーマンス(フル精度のプレコンディションステップを含む)に関して、APMSqueezeは、ネットワーク帯域幅に応じて最大2-10\times$スピードアップを提供することができる。
また,収束と効率に関する理論的解析も行う。
関連論文リスト
- Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Efficient-Adam: Communication-Efficient Distributed Adam [28.287237692902476]
我々は新しいコミュニケーションの複雑さを提示する。
効率のよい分散Adamモデル。
サーバとワーカの間のコストを削減するために、双方向の量子化を行う。
論文 参考訳(メタデータ) (2022-05-28T16:17:52Z) - Maximizing Communication Efficiency for Large-scale Training via 0/1
Adam [49.426602335460295]
1ビット通信はモデルトレーニングのスケールアップに有効な手法であり、SGDで広く研究されている。
我々は2つの新しい手法により最先端の1ビットAdamを改善する0/1Adamを提案する。
論文 参考訳(メタデータ) (2022-02-12T08:02:23Z) - 1-bit Adam: Communication Efficient Large-Scale Training with Adam's
Convergence Speed [39.23129626683372]
通信は、ネットワーク帯域幅が限られている標準のTCPインターコネクトを持つコモディティシステムにおいて、大きなボトルネックとなっている。
最も効果的な方法の1つは、誤り補償圧縮であり、1ビット圧縮でも堅牢な収束速度を提供する。
我々は,通信容量を最大5倍に削減し,スケーラビリティを向上し,非圧縮Adamと同じ収束速度を提供する1ビットAdamを提案する。
論文 参考訳(メタデータ) (2021-02-04T21:02:19Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - Adaptive Periodic Averaging: A Practical Approach to Reducing
Communication in Distributed Learning [6.370766463380455]
コンバージェンスと通信コストの観点からは,最適平均化期間は一定ではなく,実行過程によって異なることを示す。
本稿では,SGD (ADPSGD) を平均化する適応周期パラメータ (Adaptive Periodic parameter) という実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T00:04:55Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。