Fugu-MT 論文翻訳(概要): STL-SGD: Speeding Up Local SGD with Stagewise Communication Period

論文の概要: STL-SGD: Speeding Up Local SGD with Stagewise Communication Period

arxiv url: http://arxiv.org/abs/2006.06377v2
Date: Tue, 15 Dec 2020 15:19:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-22 13:05:29.905101
Title: STL-SGD: Speeding Up Local SGD with Stagewise Communication Period
Title（参考訳）: STL-SGD: 段階通信によるローカルSGDの高速化
Authors: Shuheng Shen, Yifei Cheng, Jingchang Liu and Linli Xu
Abstract要約: 局所勾配降下 (Local SGD) は通信の複雑さが低いために注目されている。 STL-SGDはミニバッチSGDと同じ収束率と線形スピードアップを保持することができる。凸問題とノンフラクチャー問題の両方の実験は、STL-SGDの優れた性能を示している。
参考スコア（独自算出の注目度）: 19.691927007250417
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Distributed parallel stochastic gradient descent algorithms are workhorses for large scale machine learning tasks. Among them, local stochastic gradient descent (Local SGD) has attracted significant attention due to its low communication complexity. Previous studies prove that the communication complexity of Local SGD with a fixed or an adaptive communication period is in the order of $O (N^{\frac{3}{2}} T^{\frac{1}{2}})$ and $O (N^{\frac{3}{4}} T^{\frac{3}{4}})$ when the data distributions on clients are identical (IID) or otherwise (Non-IID), where $N$ is the number of clients and $T$ is the number of iterations. In this paper, to accelerate the convergence by reducing the communication complexity, we propose \textit{ST}agewise \textit{L}ocal \textit{SGD} (STL-SGD), which increases the communication period gradually along with decreasing learning rate. We prove that STL-SGD can keep the same convergence rate and linear speedup as mini-batch SGD. In addition, as the benefit of increasing the communication period, when the objective is strongly convex or satisfies the Polyak-\L ojasiewicz condition, the communication complexity of STL-SGD is $O (N \log{T})$ and $O (N^{\frac{1}{2}} T^{\frac{1}{2}})$ for the IID case and the Non-IID case respectively, achieving significant improvements over Local SGD. Experiments on both convex and non-convex problems demonstrate the superior performance of STL-SGD.
Abstract（参考訳）: 分散並列確率勾配勾配アルゴリズムは大規模機械学習タスクのためのワークホースである。中でも局所確率勾配降下(局所SGD)は,通信の複雑さが低かったために注目されている。これまでの研究では、固定または適応的な通信期間を持つローカルSGDの通信複雑性が$O(N^{\frac{3}{2}} T^{\frac{1}{2}})$と$O(N^{\frac{3}{4}} T^{\frac{3}{4}})$の順にあることが証明されていた。本稿では,コミュニケーションの複雑さを減らして収束を加速させるため,学習率の低下とともに通信期間を徐々に増加させる「textit{ST}agewise \textit{L}ocal \textit{SGD}」(STL-SGD)を提案する。 STL-SGD はミニバッチ SGD と同じ収束率と線形高速化を維持できることを示す。加えて、通信期間を増加させる利点として、目的がポリak-\l ojasiewicz条件の強い凸または満足する場合、stl-sgdの通信複雑性は、それぞれiidケースと非iidケースに対して$o (n \log{t})$および$o (n^{\frac{1}{2}} t^{\frac{1}{2}})$であり、ローカルsgdよりも大幅に改善される。凸問題と非凸問題の両方の実験は、STL-SGDの優れた性能を示す。

関連論文リスト

The Effectiveness of Local Updates for Decentralized Learning under Data Heterogeneity [15.394956794959615]
DGT(Decentralized Gradient Tracking)とDGD(Decentralized Gradient Descent)の2つの基本的な分散最適化手法を再検討する。ローカルDGTが通信複雑性を$tildemathcalO Big(fracLmu(K+1) + fracdelta + mumu (1 - rho) + fracrho (1 - rho)2 cdot fracL+ deltamuBig)$, %zhizeを達成することを証明した。
論文参考訳（メタデータ） (2024-03-23T00:01:34Z)
A Specialized Semismooth Newton Method for Kernel-Based Optimal Transport [92.96250725599958]
カーネルベース最適輸送(OT)推定器は、サンプルからOT問題に対処するための代替的機能的推定手順を提供する。 SSN法は, 標準正規性条件下でのグローバル収束率$O (1/sqrtk)$, 局所二次収束率を達成できることを示す。
論文参考訳（メタデータ） (2023-10-21T18:48:45Z)
Convergence Analysis of Decentralized ASGD [1.8710230264817358]
本稿では,ノード間の部分同期や制限的ネットワークトポロジを必要としない分散非同期SGD(DASGD)に対する新しい収束速度解析法を提案する。我々の収束証明は、固定段数と任意の非滑らかで同質でL字型の目的函数を仮定する。
論文参考訳（メタデータ） (2023-09-07T14:50:31Z)
Towards Understanding the Generalizability of Delayed Stochastic Gradient Descent [63.43247232708004]
非同期で実行される勾配降下は、大規模機械学習モデルのトレーニングにおいて重要な役割を果たす。既存の一般化誤差境界は悲観的であり、非同期遅延と一般化の相関を明らかにすることはできない。我々の理論的結果は、非同期遅延は遅延SGDアルゴリズムの一般化誤差を低減することを示唆している。
論文参考訳（メタデータ） (2023-08-18T10:00:27Z)
SAGDA: Achieving $\mathcal{O}(\epsilon^{-2})$ Communication Complexity in Federated Min-Max Learning [9.001405567602745]
本稿では,SAGDAがクライアント数とローカル更新ステップの両方で線形高速化を実現することを示す。また,フェデレートされたmin-max学習のための標準FSGDA法の通信複雑性に関する現在の理解も進める。
論文参考訳（メタデータ） (2022-10-02T20:04:50Z)
Sharper Convergence Guarantees for Asynchronous SGD for Distributed and Federated Learning [77.22019100456595]
通信周波数の異なる分散計算作業者のトレーニングアルゴリズムを示す。本研究では,より厳密な収束率を$mathcalO!!(sigma2-2_avg!)とする。また,不均一性の項は,作業者の平均遅延によっても影響されることを示した。
論文参考訳（メタデータ） (2022-06-16T17:10:57Z)
Escaping Saddle Points with Bias-Variance Reduced Local Perturbed SGD for Communication Efficient Nonconvex Distributed Learning [58.79085525115987]
ローカル手法は通信時間を短縮する有望なアプローチの1つである。局所的データセットが局所的損失の滑らかさよりも小さい場合,通信の複雑さは非局所的手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-02-12T15:12:17Z)
Acceleration in Distributed Optimization Under Similarity [72.54787082152278]
集中ノードを持たないエージェントネットワーク上での分散(強い凸)最適化問題について検討する。 $varepsilon$-solutionは$tildemathcalrhoObig(sqrtfracbeta/mu (1-)log1/varepsilonbig)$通信ステップ数で達成される。この速度は、関心のクラスに適用される分散ゴシップ-アルゴリズムの、初めて(ポリログ因子まで)より低い複雑性の通信境界と一致する。
論文参考訳（メタデータ） (2021-10-24T04:03:00Z)
Communication-efficient SGD: From Local SGD to One-Shot Averaging [16.00658606157781]
複数の作業者に対して並列化することで,勾配降下(SGD)の高速化を検討する。そこで本研究では,反復数の増加に伴って通信頻度を小さくすることで,全体の通信を減らし,局所的なSGD方式を提案する。
論文参考訳（メタデータ） (2021-06-09T01:10:34Z)
Avoiding Communication in Logistic Regression [1.7780157772002312]
勾配降下(SGD)は、様々な機械学習問題を解くために最も広く使われている最適化手法の1つである。並列的な設定では、SGDはイテレーション毎にプロセス間通信を必要とする。本稿では,SGDを用いたロジスティック回帰問題を解くための新しいコミュニケーション回避手法を提案する。
論文参考訳（メタデータ） (2020-11-16T21:14:39Z)
O(1) Communication for Distributed SGD through Two-Level Gradient Averaging [0.0]
我々は,2段階勾配平均化(A2SGD)と呼ばれる戦略を導入し,すべての勾配を労働者1人当たりの局所的な平均値に統一する。我々の理論的解析は、A2SGDがデフォルト分散SGDアルゴリズムと同様に収束していることを示している。
論文参考訳（メタデータ） (2020-06-12T18:20:52Z)
A Unified Theory of Decentralized SGD with Changing Topology and Local Updates [70.9701218475002]
分散通信方式の統一収束解析を導入する。いくつかの応用に対して普遍収束率を導出する。私たちの証明は弱い仮定に依存している。
論文参考訳（メタデータ） (2020-03-23T17:49:15Z)
Variance Reduced Local SGD with Lower Communication Complexity [52.44473777232414]
本稿では,通信の複雑さをさらに軽減するために,分散化ローカルSGDを提案する。 VRL-SGDは、労働者が同一でないデータセットにアクセスしても、通信の複雑さが低い$O(Tfrac12 Nfrac32)$で、エンフラーイテレーションのスピードアップを達成する。
論文参考訳（メタデータ） (2019-12-30T08:15:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。