論文の概要: Accelerating Gossip SGD with Periodic Global Averaging
- arxiv url: http://arxiv.org/abs/2105.09080v1
- Date: Wed, 19 May 2021 11:59:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 13:39:29.704741
- Title: Accelerating Gossip SGD with Periodic Global Averaging
- Title(参考訳): 周期的グローバル平均化によるゴシップsgdの加速
- Authors: Yiming Chen, Kun Yuan, Yingya Zhang, Pan Pan, Yinghui Xu, Wotao Yin
- Abstract要約: 通信オーバーヘッドは大規模分散ネットワークのスケーラビリティを妨げる。
本稿では,Gossip SGDに周期的平均化を加えたGossip-PGAを提案する。
過渡的な複雑性は、順序順が3H4$のローカルSGDよりも優れている。
- 参考スコア(独自算出の注目度): 32.39720739405196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Communication overhead hinders the scalability of large-scale distributed
training. Gossip SGD, where each node averages only with its neighbors, is more
communication-efficient than the prevalent parallel SGD. However, its
convergence rate is reversely proportional to quantity $1-\beta$ which measures
the network connectivity. On large and sparse networks where $1-\beta \to 0$,
Gossip SGD requires more iterations to converge, which offsets against its
communication benefit. This paper introduces Gossip-PGA, which adds Periodic
Global Averaging into Gossip SGD. Its transient stage, i.e., the iterations
required to reach asymptotic linear speedup stage, improves from
$\Omega(\beta^4 n^3/(1-\beta)^4)$ to $\Omega(\beta^4 n^3 H^4)$ for non-convex
problems. The influence of network topology in Gossip-PGA can be controlled by
the averaging period $H$. Its transient-stage complexity is also superior to
Local SGD which has order $\Omega(n^3 H^4)$. Empirical results of large-scale
training on image classification (ResNet50) and language modeling (BERT)
validate our theoretical findings.
- Abstract(参考訳): 通信オーバーヘッドは、大規模分散トレーニングのスケーラビリティを妨げる。
Gossip SGDは、各ノードが隣り合うだけで平均となるが、従来の並列SGDよりも通信効率が高い。
しかし、その収束率は、ネットワーク接続度を測定する1-\beta$に逆比例する。
1-\beta \to 0$の大規模でスパースなネットワークでは、Gossip SGDはもっと多くのイテレーションを収束させ、通信の利点を相殺する。
本稿では,Gossip SGDに周期的グローバル平均化を加えたGossip-PGAを紹介する。
その過渡段階、すなわち漸近線形スピードアップ段階に到達するために必要な反復は、非凸問題に対して$\Omega(\beta^4 n^3/(1-\beta)^4)$から$\Omega(\beta^4 n^3 H^4)$に改善される。
Gossip-PGAにおけるネットワークトポロジの影響は平均化期間$H$で制御できる。
過渡段階の複雑性は、位数$\Omega(n^3 H^4)$の局所SGDよりも優れている。
画像分類 (ResNet50) と言語モデリング (BERT) に関する大規模トレーニングの実証結果から, 理論的知見が得られた。
関連論文リスト
- A Proximal Gradient Method With Probabilistic Multi-Gossip Communications for Decentralized Composite Optimization [36.777745196161035]
本稿では,分散合成(平滑+非平滑)最適化のための通信効率の良いMG-Skipを提案する。
MG-Skipは通信の複雑さを最適に達成し,非滑らかなセットアップにおけるローカル更新の利点を確認する。
論文 参考訳(メタデータ) (2023-12-19T05:13:16Z) - Topology-aware Generalization of Decentralized SGD [89.25765221779288]
本稿では,分散型Valpha-10安定降下(D-SGD)の一般化可能性について検討する。
D-SGDの一般化性は、初期訓練段階における接続性と正の相関があることを証明した。
論文 参考訳(メタデータ) (2022-06-25T16:03:48Z) - Sharper Convergence Guarantees for Asynchronous SGD for Distributed and
Federated Learning [77.22019100456595]
通信周波数の異なる分散計算作業者のトレーニングアルゴリズムを示す。
本研究では,より厳密な収束率を$mathcalO!!(sigma2-2_avg!)とする。
また,不均一性の項は,作業者の平均遅延によっても影響されることを示した。
論文 参考訳(メタデータ) (2022-06-16T17:10:57Z) - Exponential Graph is Provably Efficient for Decentralized Deep Training [30.817705471352614]
いわゆる指数グラフでは、すべてのノードが$O(log(n)$ 隣り合っていて、$n$ はノードの総数である。
この研究は、そのようなグラフが高速通信と効果的な平均化の両方に同時に結びつくことを証明している。
また、各ノードが反復ごとに1つの隣接ノードと通信する$log(n)$ 1-peer指数グラフの列は、共に正確な平均化を達成することができる。
論文 参考訳(メタデータ) (2021-10-26T02:33:39Z) - Acceleration in Distributed Optimization Under Similarity [72.54787082152278]
集中ノードを持たないエージェントネットワーク上での分散(強い凸)最適化問題について検討する。
$varepsilon$-solutionは$tildemathcalrhoObig(sqrtfracbeta/mu (1-)log1/varepsilonbig)$通信ステップ数で達成される。
この速度は、関心のクラスに適用される分散ゴシップ-アルゴリズムの、初めて(ポリログ因子まで)より低い複雑性の通信境界と一致する。
論文 参考訳(メタデータ) (2021-10-24T04:03:00Z) - Communication-efficient SGD: From Local SGD to One-Shot Averaging [16.00658606157781]
複数の作業者に対して並列化することで,勾配降下(SGD)の高速化を検討する。
そこで本研究では,反復数の増加に伴って通信頻度を小さくすることで,全体の通信を減らし,局所的なSGD方式を提案する。
論文 参考訳(メタデータ) (2021-06-09T01:10:34Z) - Accelerated Gradient Tracking over Time-varying Graphs for Decentralized Optimization [59.65871549878937]
実用的な単一ループ加速勾配追跡には$O(fracgamma1-sigma_gamma)2sqrtfracLepsilon)$が必要であることを証明している。
我々の収束率は$O(frac1epsilon5/7)$と$O(fracLmu)5/7frac1(1-sigma)1.5logfrac1epsilon)$よりも大幅に改善した。
論文 参考訳(メタデータ) (2021-04-06T15:34:14Z) - Communication-efficient Decentralized Local SGD over Undirected Networks [2.3572498744567123]
我々は、$n$エージェントのネットワークがグローバル関数$F$を最小化しようとする分散学習問題を考察する。
通信ラウンド数と各エージェントの計算労力のトレードオフを分析する。
その結果,R=Omega(n)$通信ラウンドのみを用いることで,O(1/nT)$というスケールの誤差を実現できることがわかった。
論文 参考訳(メタデータ) (2020-11-06T09:34:00Z) - STL-SGD: Speeding Up Local SGD with Stagewise Communication Period [19.691927007250417]
局所勾配降下 (Local SGD) は通信の複雑さが低いために注目されている。
STL-SGDはミニバッチSGDと同じ収束率と線形スピードアップを保持することができる。
凸問題とノンフラクチャー問題の両方の実験は、STL-SGDの優れた性能を示している。
論文 参考訳(メタデータ) (2020-06-11T12:48:17Z) - Variance Reduced Local SGD with Lower Communication Complexity [52.44473777232414]
本稿では,通信の複雑さをさらに軽減するために,分散化ローカルSGDを提案する。
VRL-SGDは、労働者が同一でないデータセットにアクセスしても、通信の複雑さが低い$O(Tfrac12 Nfrac32)$で、エンフラーイテレーションのスピードアップを達成する。
論文 参考訳(メタデータ) (2019-12-30T08:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。