Fugu-MT 論文翻訳(概要): Scaling Distributed Training with Adaptive Summation

論文の概要: Scaling Distributed Training with Adaptive Summation

arxiv url: http://arxiv.org/abs/2006.02924v1
Date: Thu, 4 Jun 2020 15:08:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-25 12:37:48.464586
Title: Scaling Distributed Training with Adaptive Summation
Title（参考訳）: Adaptive Summationによる分散トレーニングのスケールアップ
Authors: Saeed Maleki, Madan Musuvathi, Todd Mytkowicz, Olli Saarikivi, Tianju Xu, Vadim Eksarevskiy, Jaliya Ekanayake, Emad Barsoum
Abstract要約: 本稿では,従来の作業よりも早く収束するAdasum(適応和)と呼ばれる勾配を結合する新しい手法を提案する。 Adasumは実装が容易で、グラデーションを要約するのと同じくらい効率的で、オープンソースのツールキットHorovodに統合されている。
参考スコア（独自算出の注目度）: 2.6210166639679
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Stochastic gradient descent (SGD) is an inherently sequential training algorithm--computing the gradient at batch $i$ depends on the model parameters learned from batch $i-1$. Prior approaches that break this dependence do not honor them (e.g., sum the gradients for each batch, which is not what sequential SGD would do) and thus potentially suffer from poor convergence. This paper introduces a novel method to combine gradients called Adasum (for adaptive sum) that converges faster than prior work. Adasum is easy to implement, almost as efficient as simply summing gradients, and is integrated into the open-source toolkit Horovod. This paper first provides a formal justification for Adasum and then empirically demonstrates Adasum is more accurate than prior gradient accumulation methods. It then introduces a series of case-studies to show Adasum works with multiple frameworks, (TensorFlow and PyTorch), scales multiple optimizers (Momentum-SGD, Adam, and LAMB) to larger batch-sizes while still giving good downstream accuracy. Finally, it proves that Adasum converges. To summarize, Adasum scales Momentum-SGD on the MLPerf Resnet50 benchmark to 64K examples before communication (no MLPerf v0.5 entry converged with more than 16K), the Adam optimizer to 64K examples before communication on BERT-LARGE (prior work showed Adam stopped scaling at 16K), and the LAMB optimizer to 128K before communication on BERT-LARGE (prior work used 64K), all while maintaining downstream accuracy metrics. Finally, if a user does not need to scale, we show LAMB with Adasum on BERT-LARGE converges in 30% fewer steps than the baseline.
Abstract（参考訳）: 確率的勾配降下 (sgd) は本質的に逐次学習アルゴリズムであり、バッチ $i$ の勾配はバッチ $i-1$ から得られたモデルパラメータに依存する。この依存を破る以前のアプローチは、それらに敬意を払わず(例えば、各バッチの勾配を和ること、これはシーケンシャルなSGDがやることではない)、結果として収束不良に悩まされる可能性がある。本稿では,従来の作業よりも早く収束するAdasum(適応和)と呼ばれる勾配を組み合わせる新しい手法を提案する。 Adasumの実装は簡単で、グラデーションを要約するのと同じくらい効率的で、オープンソースのツールキットHorovodに統合されている。本稿はまず, Adasum の形式的正当性について述べるとともに, Adasum が先行的な勾配累積法よりも精度が高いことを実証的に示す。 adasumが複数のフレームワーク(tensorflowとpytorch)で動作し、複数のオプティマイザ(momentum-sgd、adam、lamb)をより大きなバッチサイズにスケールすると同時に、下流の精度も向上している。最後に、アダサムが収束することを証明する。要約すると、adasumは、mlperf resnet50ベンチマークでmomentum-sgdを、通信前の64kの例(mlperf v0.5のエントリが16k以上で収束しない)、bert-largeでの通信前にadamオプティマイザを64kの例に、bert-largeでの通信前にlammオプティマイザを128kにスケールする。最後に、ユーザがスケールする必要がなければ、bert-large に adasum を付けたラムがベースラインよりも30%少ないステップで収束することを示す。

関連論文リスト

AdaBatchGrad: Combining Adaptive Batch Size and Adaptive Step Size [42.84471753630676]
本稿では,AdaBatchGradと呼ばれるグラディエントDescent(SGD)の新規な適応について述べる。適応的なステップサイズと調整可能なバッチサイズをシームレスに統合する。適応的なステップサイズと適応的なバッチサイズを導入することで、通常のSGDの性能が徐々に向上することを示す。
論文参考訳（メタデータ） (2024-02-07T21:19:05Z)
Convergence Analysis of Decentralized ASGD [1.8710230264817358]
本稿では,ノード間の部分同期や制限的ネットワークトポロジを必要としない分散非同期SGD(DASGD)に対する新しい収束速度解析法を提案する。我々の収束証明は、固定段数と任意の非滑らかで同質でL字型の目的函数を仮定する。
論文参考訳（メタデータ） (2023-09-07T14:50:31Z)
Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models [134.83964935755964]
ディープラーニングでは、異なる種類のディープネットワークは典型的に異なる補間を必要とし、複数のトライアル後に選択する必要がある。本稿では,この問題を解消し,モデルトレーニング速度を継続的に改善するために,ADAtive Nesterov運動量変換器を提案する。
論文参考訳（メタデータ） (2022-08-13T16:04:39Z)
Sharper Convergence Guarantees for Asynchronous SGD for Distributed and Federated Learning [77.22019100456595]
通信周波数の異なる分散計算作業者のトレーニングアルゴリズムを示す。本研究では,より厳密な収束率を$mathcalO!!(sigma2-2_avg!)とする。また,不均一性の項は,作業者の平均遅延によっても影響されることを示した。
論文参考訳（メタデータ） (2022-06-16T17:10:57Z)
Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文参考訳（メタデータ） (2022-02-02T11:58:56Z)
Towards Noise-adaptive, Problem-adaptive Stochastic Gradient Descent [7.176107039687231]
雑音に対して勾配降下(SGD)を適応させるステップサイズスキームを設計する。我々は、Nesterov反復によるSGDの$T$反復がほぼ最適であることを示す。他のステップサイズスキームと比較して、新しい指数的なステップサイズスキームの有効性を実証する。
論文参考訳（メタデータ） (2021-10-21T19:22:14Z)
Exploiting Adam-like Optimization Algorithms to Improve the Performance of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。 resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文参考訳（メタデータ） (2021-03-26T18:55:08Z)
Balancing Rates and Variance via Adaptive Batch-Size for Stochastic Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文参考訳（メタデータ） (2020-07-02T16:02:02Z)
MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文参考訳（メタデータ） (2020-06-21T21:47:43Z)
A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。 Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文参考訳（メタデータ） (2020-03-05T01:56:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。