論文の概要: Adaptive Periodic Averaging: A Practical Approach to Reducing
Communication in Distributed Learning
- arxiv url: http://arxiv.org/abs/2007.06134v2
- Date: Tue, 19 Jan 2021 15:45:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 23:32:29.999353
- Title: Adaptive Periodic Averaging: A Practical Approach to Reducing
Communication in Distributed Learning
- Title(参考訳): adaptive periodic averaging: 分散学習におけるコミュニケーション削減のための実践的アプローチ
- Authors: Peng Jiang, Gagan Agrawal
- Abstract要約: コンバージェンスと通信コストの観点からは,最適平均化期間は一定ではなく,実行過程によって異なることを示す。
本稿では,SGD (ADPSGD) を平均化する適応周期パラメータ (Adaptive Periodic parameter) という実用的なアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 6.370766463380455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic Gradient Descent (SGD) is the key learning algorithm for many
machine learning tasks. Because of its computational costs, there is a growing
interest in accelerating SGD on HPC resources like GPU clusters. However, the
performance of parallel SGD is still bottlenecked by the high communication
costs even with a fast connection among the machines. A simple approach to
alleviating this problem, used in many existing efforts, is to perform
communication every few iterations, using a constant averaging period. In this
paper, we show that the optimal averaging period in terms of convergence and
communication cost is not a constant, but instead varies over the course of the
execution. Specifically, we observe that reducing the variance of model
parameters among the computing nodes is critical to the convergence of periodic
parameter averaging SGD. Given a fixed communication budget, we show that it is
more beneficial to synchronize more frequently in early iterations to reduce
the initial large variance and synchronize less frequently in the later phase
of the training process. We propose a practical algorithm, named ADaptive
Periodic parameter averaging SGD (ADPSGD), to achieve a smaller overall
variance of model parameters, and thus better convergence compared with the
Constant Periodic parameter averaging SGD (CPSGD). We evaluate our method with
several image classification benchmarks and show that our ADPSGD indeed
achieves smaller training losses and higher test accuracies with smaller
communication compared with CPSGD. Compared with gradient-quantization SGD, we
show that our algorithm achieves faster convergence with only half of the
communication. Compared with full-communication SGD, our ADPSGD achieves 1:14x
to 1:27x speedups with a 100Gbps connection among computing nodes, and the
speedups increase to 1:46x ~ 1:95x with a 10Gbps connection.
- Abstract(参考訳): Stochastic Gradient Descent (SGD)は多くの機械学習タスクにおいて重要な学習アルゴリズムである。
その計算コストのため、GPUクラスタのようなHPCリソース上でのSGDの高速化への関心が高まっている。
しかし, 並列SGDの性能は, マシン間の高速接続でも高い通信コストでボトルネックとなっている。
この問題を緩和するための単純なアプローチは、多くの既存の取り組みで使われ、一定平均化期間を使用して、数回のイテレーション毎に通信を行うことである。
本稿では,収束と通信コストの観点からの最適平均化期間は一定ではなく,その実行過程によって異なることを示す。
具体的には,sgdを平均化する周期パラメータの収束には,計算ノード間のモデルパラメータのばらつきの低減が不可欠であることを示す。
固定的な通信予算が与えられた場合、初期のイテレーションにおいてより頻繁に同期し、初期の大きなばらつきを減らし、トレーニングプロセスの後半段階であまり同期しない方が有益であることを示す。
本稿では,SGD (Adaptive Periodic parameter averaging SGD) という実用的なアルゴリズムを提案し,モデルパラメータの全体的な分散を小さくし,SGD (Constant Periodic parameter averaging SGD) と比較して収束性を向上させる。
いくつかの画像分類ベンチマークを用いて本手法の評価を行い,ADPSGDがCPSGDに比べて訓練損失が小さく,通信精度も高いことを示す。
勾配量子化SGDと比較すると,このアルゴリズムは通信の半分でより高速な収束を実現する。
完全通信SGDと比較して、ADPSGDは計算ノード間で100Gbpsで1:14xから1:27xの高速化を実現し、10Gbpsで1:46x〜1:95xに高速化した。
関連論文リスト
- Distributed Stochastic Gradient Descent with Staleness: A Stochastic Delay Differential Equation Based Framework [56.82432591933544]
分散勾配降下(SGD)は、計算リソースのスケーリング、トレーニング時間の短縮、マシンラーニングにおけるユーザのプライバシ保護の支援などにより、近年注目されている。
本稿では,遅延微分方程式(SDDE)と勾配到着の近似に基づく分散SGDの実行時間と安定化について述べる。
活性化作業員の増加は, 安定度による分散SGDを必ずしも加速させるものではないことが興味深い。
論文 参考訳(メタデータ) (2024-06-17T02:56:55Z) - DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - DR-DSGD: A Distributionally Robust Decentralized Learning Algorithm over
Graphs [54.08445874064361]
本稿では,分散環境下での正規化された分散ロバストな学習問題を解くことを提案する。
Kullback-Liebler正規化関数をロバストなmin-max最適化問題に追加することにより、学習問題を修正されたロバストな問題に還元することができる。
提案アルゴリズムは, 最低分布検定精度を最大10%向上できることを示す。
論文 参考訳(メタデータ) (2022-08-29T18:01:42Z) - Avoiding Communication in Logistic Regression [1.7780157772002312]
勾配降下(SGD)は、様々な機械学習問題を解くために最も広く使われている最適化手法の1つである。
並列的な設定では、SGDはイテレーション毎にプロセス間通信を必要とする。
本稿では,SGDを用いたロジスティック回帰問題を解くための新しいコミュニケーション回避手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T21:14:39Z) - O(1) Communication for Distributed SGD through Two-Level Gradient
Averaging [0.0]
我々は,2段階勾配平均化(A2SGD)と呼ばれる戦略を導入し,すべての勾配を労働者1人当たりの局所的な平均値に統一する。
我々の理論的解析は、A2SGDがデフォルト分散SGDアルゴリズムと同様に収束していることを示している。
論文 参考訳(メタデータ) (2020-06-12T18:20:52Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z) - OD-SGD: One-step Delay Stochastic Gradient Descent for Distributed
Training [5.888925582071453]
本研究では,1段階遅延SGD(OD-SGD)と呼ばれる新しい技術を提案する。
提案アルゴリズムは,MNIST, CIFAR-10, ImageNetのデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-05-14T05:33:36Z) - Breaking (Global) Barriers in Parallel Stochastic Optimization with
Wait-Avoiding Group Averaging [34.55741812648229]
本稿では、ウェイトアビジングサブグループであるWAGMA-SGDについて述べる。
ImageNet上でResNet-50をトレーニングし、機械翻訳用のトランスフォーマー、大規模ナビゲーションのための深い強化学習を行う。
最先端の分散SGDと比較すると、WAGMA-SGDはトレーニングのスループットを大幅に改善する。
論文 参考訳(メタデータ) (2020-04-30T22:11:53Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z) - A Unified Theory of Decentralized SGD with Changing Topology and Local
Updates [70.9701218475002]
分散通信方式の統一収束解析を導入する。
いくつかの応用に対して普遍収束率を導出する。
私たちの証明は弱い仮定に依存している。
論文 参考訳(メタデータ) (2020-03-23T17:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。