論文の概要: Scaling Distributed Training with Adaptive Summation
- arxiv url: http://arxiv.org/abs/2006.02924v1
- Date: Thu, 4 Jun 2020 15:08:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 12:37:48.464586
- Title: Scaling Distributed Training with Adaptive Summation
- Title(参考訳): Adaptive Summationによる分散トレーニングのスケールアップ
- Authors: Saeed Maleki, Madan Musuvathi, Todd Mytkowicz, Olli Saarikivi, Tianju
Xu, Vadim Eksarevskiy, Jaliya Ekanayake, Emad Barsoum
- Abstract要約: 本稿では,従来の作業よりも早く収束するAdasum(適応和)と呼ばれる勾配を結合する新しい手法を提案する。
Adasumは実装が容易で、グラデーションを要約するのと同じくらい効率的で、オープンソースのツールキットHorovodに統合されている。
- 参考スコア(独自算出の注目度): 2.6210166639679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent (SGD) is an inherently sequential training
algorithm--computing the gradient at batch $i$ depends on the model parameters
learned from batch $i-1$. Prior approaches that break this dependence do not
honor them (e.g., sum the gradients for each batch, which is not what
sequential SGD would do) and thus potentially suffer from poor convergence.
This paper introduces a novel method to combine gradients called Adasum (for
adaptive sum) that converges faster than prior work. Adasum is easy to
implement, almost as efficient as simply summing gradients, and is integrated
into the open-source toolkit Horovod.
This paper first provides a formal justification for Adasum and then
empirically demonstrates Adasum is more accurate than prior gradient
accumulation methods. It then introduces a series of case-studies to show
Adasum works with multiple frameworks, (TensorFlow and PyTorch), scales
multiple optimizers (Momentum-SGD, Adam, and LAMB) to larger batch-sizes while
still giving good downstream accuracy. Finally, it proves that Adasum
converges.
To summarize, Adasum scales Momentum-SGD on the MLPerf Resnet50 benchmark to
64K examples before communication (no MLPerf v0.5 entry converged with more
than 16K), the Adam optimizer to 64K examples before communication on
BERT-LARGE (prior work showed Adam stopped scaling at 16K), and the LAMB
optimizer to 128K before communication on BERT-LARGE (prior work used 64K), all
while maintaining downstream accuracy metrics. Finally, if a user does not need
to scale, we show LAMB with Adasum on BERT-LARGE converges in 30% fewer steps
than the baseline.
- Abstract(参考訳): 確率的勾配降下 (sgd) は本質的に逐次学習アルゴリズムであり、バッチ $i$ の勾配はバッチ $i-1$ から得られたモデルパラメータに依存する。
この依存を破る以前のアプローチは、それらに敬意を払わず(例えば、各バッチの勾配を和ること、これはシーケンシャルなSGDがやることではない)、結果として収束不良に悩まされる可能性がある。
本稿では,従来の作業よりも早く収束するAdasum(適応和)と呼ばれる勾配を組み合わせる新しい手法を提案する。
Adasumの実装は簡単で、グラデーションを要約するのと同じくらい効率的で、オープンソースのツールキットHorovodに統合されている。
本稿はまず, Adasum の形式的正当性について述べるとともに, Adasum が先行的な勾配累積法よりも精度が高いことを実証的に示す。
adasumが複数のフレームワーク(tensorflowとpytorch)で動作し、複数のオプティマイザ(momentum-sgd、adam、lamb)をより大きなバッチサイズにスケールすると同時に、下流の精度も向上している。
最後に、アダサムが収束することを証明する。
要約すると、adasumは、mlperf resnet50ベンチマークでmomentum-sgdを、通信前の64kの例(mlperf v0.5のエントリが16k以上で収束しない)、bert-largeでの通信前にadamオプティマイザを64kの例に、bert-largeでの通信前にlammオプティマイザを128kにスケールする。
最後に、ユーザがスケールする必要がなければ、bert-large に adasum を付けたラムがベースラインよりも30%少ないステップで収束することを示す。
関連論文リスト
- AdaBatchGrad: Combining Adaptive Batch Size and Adaptive Step Size [42.84471753630676]
本稿では,AdaBatchGradと呼ばれるグラディエントDescent(SGD)の新規な適応について述べる。
適応的なステップサイズと調整可能なバッチサイズをシームレスに統合する。
適応的なステップサイズと適応的なバッチサイズを導入することで、通常のSGDの性能が徐々に向上することを示す。
論文 参考訳(メタデータ) (2024-02-07T21:19:05Z) - Convergence Analysis of Decentralized ASGD [1.8710230264817358]
本稿では,ノード間の部分同期や制限的ネットワークトポロジを必要としない分散非同期SGD(DASGD)に対する新しい収束速度解析法を提案する。
我々の収束証明は、固定段数と任意の非滑らかで同質でL字型の目的函数を仮定する。
論文 参考訳(メタデータ) (2023-09-07T14:50:31Z) - Sharper Convergence Guarantees for Asynchronous SGD for Distributed and
Federated Learning [77.22019100456595]
通信周波数の異なる分散計算作業者のトレーニングアルゴリズムを示す。
本研究では,より厳密な収束率を$mathcalO!!(sigma2-2_avg!)とする。
また,不均一性の項は,作業者の平均遅延によっても影響されることを示した。
論文 参考訳(メタデータ) (2022-06-16T17:10:57Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z) - Towards Noise-adaptive, Problem-adaptive Stochastic Gradient Descent [7.176107039687231]
雑音に対して勾配降下(SGD)を適応させるステップサイズスキームを設計する。
我々は、Nesterov反復によるSGDの$T$反復がほぼ最適であることを示す。
他のステップサイズスキームと比較して、新しい指数的なステップサイズスキームの有効性を実証する。
論文 参考訳(メタデータ) (2021-10-21T19:22:14Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。
Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文 参考訳(メタデータ) (2020-03-05T01:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。