論文の概要: Local SGD With a Communication Overhead Depending Only on the Number of
Workers
- arxiv url: http://arxiv.org/abs/2006.02582v1
- Date: Wed, 3 Jun 2020 23:33:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 17:44:18.344132
- Title: Local SGD With a Communication Overhead Depending Only on the Number of
Workers
- Title(参考訳): 作業員数のみに依存する通信オーバーヘッドを持つローカルsgd
- Authors: Artin Spiridonoff, Alex Olshevsky and Ioannis Ch. Paschalidis
- Abstract要約: 複数の作業者に対して並列化することで,勾配降下(SGD)の高速化を検討する。
同じデータセットが$n$のワーカー間で共有されていると仮定します。
従来の文献で提案され分析されたローカルSGD法は、機械がそのような通信の間に多くのローカルステップを踏むべきであることを示唆している。
- 参考スコア(独自算出の注目度): 17.886554223172517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider speeding up stochastic gradient descent (SGD) by parallelizing it
across multiple workers. We assume the same data set is shared among $n$
workers, who can take SGD steps and coordinate with a central server.
Unfortunately, this could require a lot of communication between the workers
and the server, which can dramatically reduce the gains from parallelism. The
Local SGD method, proposed and analyzed in the earlier literature, suggests
machines should make many local steps between such communications. While the
initial analysis of Local SGD showed it needs $\Omega ( \sqrt{T} )$
communications for $T$ local gradient steps in order for the error to scale
proportionately to $1/(nT)$, this has been successively improved in a string of
papers, with the state-of-the-art requiring $\Omega \left( n \left( \mbox{
polynomial in log } (T) \right) \right)$ communications. In this paper, we give
a new analysis of Local SGD. A consequence of our analysis is that Local SGD
can achieve an error that scales as $1/(nT)$ with only a fixed number of
communications independent of $T$: specifically, only $\Omega(n)$
communications are required.
- Abstract(参考訳): 複数の作業員を並列化することで,確率勾配降下 (sgd) の高速化を検討する。
同じデータセットが、sgdステップと中央サーバとの調整が可能な、n$ workers間で共有されていると仮定します。
残念なことに、これはワーカとサーバ間の多くの通信を必要とする可能性があるため、並列化による利益を劇的に削減することができる。
従来の文献で提案され分析されたローカルSGD法は、機械がそのような通信の間に多くのローカルステップを踏むべきであることを示唆している。
ローカルsgdの初期の分析では、エラーが1/(nt)$に比例するために、t$の局所勾配ステップに対して$\omega ( \sqrt{t} )$の通信が必要であることが示されているが、これは一連の論文で連続的に改善され、最先端の通信には$\omega \left(n \left( \mbox{ polynomial in log } (t) \right) \right)$の通信が必要である。
本稿では,ローカルSGDの新しい解析法を提案する。
分析の結果、ローカルsgdは、1/(nt)$でスケールするエラーを達成でき、固定数の通信は$t$に依存しない:具体的には$\omega(n)$通信のみが必要である。
関連論文リスト
- A Quadratic Synchronization Rule for Distributed Deep Learning [66.68264684667562]
本研究は、擬似同期規則(QSR)と呼ばれる$H$を決定するための理論基底法を提案する。
ResNet と ViT の実験により、QSR を用いた局所勾配法は、他の同期戦略よりもテスト精度を一貫して向上することが示された。
論文 参考訳(メタデータ) (2023-10-22T21:38:57Z) - Cooperative Multi-Agent Reinforcement Learning: Asynchronous
Communication and Linear Function Approximation [77.09836892653176]
マルコフ決定過程の設定におけるマルチエージェント強化学習について検討した。
本稿では非同期通信が可能な値に基づく証明可能な効率的なアルゴリズムを提案する。
我々は、コラボレーションによってパフォーマンスを改善するために、最小の$Omega(dM)$通信の複雑さが必要であることを示す。
論文 参考訳(メタデータ) (2023-05-10T20:29:29Z) - DADAO: Decoupled Accelerated Decentralized Asynchronous Optimization [0.0]
DADAOは、L$-smooth と $mu$-strongly convex 関数の和を最小化する最初の分散化、高速化、非同期化、プライマリ化、一階述語アルゴリズムである。
我々のアルゴリズムは、$mathcalO(nsqrtchisqrtfracLmulog(frac1epsilon)$ localと$mathcalO(nsqrtchisqrtfracLmulog()のみを必要とすることを示す。
論文 参考訳(メタデータ) (2022-07-26T08:47:54Z) - A Simple and Provably Efficient Algorithm for Asynchronous Federated
Contextual Linear Bandits [77.09836892653176]
我々は,M$エージェントが相互に協力して,中央サーバの助けを借りて,グローバルなコンテキスト線形バンドイット問題を解決するためのフェデレーション付きコンテキスト線形バンドイットについて検討した。
すべてのエージェントが独立して動作し、ひとつのエージェントとサーバ間の通信が他のエージェントの通信をトリガーしない非同期設定を考える。
texttFedLinUCBの後悔は$tildeO(dsqrtsum_m=1M T_m)$で、通信の複雑さは$tildeO(dM)であることを示す。
論文 参考訳(メタデータ) (2022-07-07T06:16:19Z) - Sharper Convergence Guarantees for Asynchronous SGD for Distributed and
Federated Learning [77.22019100456595]
通信周波数の異なる分散計算作業者のトレーニングアルゴリズムを示す。
本研究では,より厳密な収束率を$mathcalO!!(sigma2-2_avg!)とする。
また,不均一性の項は,作業者の平均遅延によっても影響されることを示した。
論文 参考訳(メタデータ) (2022-06-16T17:10:57Z) - Distributed Saddle-Point Problems Under Similarity [173.19083235638104]
与えられたサブ最適度$epsilon0$は、$Omegabigのマスター/ワーカーネットワークで達成されることを示す。
次に,ネットワークの下位の型(ログオーバまで)に適合するアルゴリズムを提案する。
頑健なロジスティック回帰問題に対して提案アルゴリズムの有効性を評価する。
論文 参考訳(メタデータ) (2021-07-22T14:25:16Z) - Communication-efficient SGD: From Local SGD to One-Shot Averaging [16.00658606157781]
複数の作業者に対して並列化することで,勾配降下(SGD)の高速化を検討する。
そこで本研究では,反復数の増加に伴って通信頻度を小さくすることで,全体の通信を減らし,局所的なSGD方式を提案する。
論文 参考訳(メタデータ) (2021-06-09T01:10:34Z) - Communication-efficient Decentralized Local SGD over Undirected Networks [2.3572498744567123]
我々は、$n$エージェントのネットワークがグローバル関数$F$を最小化しようとする分散学習問題を考察する。
通信ラウンド数と各エージェントの計算労力のトレードオフを分析する。
その結果,R=Omega(n)$通信ラウンドのみを用いることで,O(1/nT)$というスケールの誤差を実現できることがわかった。
論文 参考訳(メタデータ) (2020-11-06T09:34:00Z) - STL-SGD: Speeding Up Local SGD with Stagewise Communication Period [19.691927007250417]
局所勾配降下 (Local SGD) は通信の複雑さが低いために注目されている。
STL-SGDはミニバッチSGDと同じ収束率と線形スピードアップを保持することができる。
凸問題とノンフラクチャー問題の両方の実験は、STL-SGDの優れた性能を示している。
論文 参考訳(メタデータ) (2020-06-11T12:48:17Z) - Variance Reduced Local SGD with Lower Communication Complexity [52.44473777232414]
本稿では,通信の複雑さをさらに軽減するために,分散化ローカルSGDを提案する。
VRL-SGDは、労働者が同一でないデータセットにアクセスしても、通信の複雑さが低い$O(Tfrac12 Nfrac32)$で、エンフラーイテレーションのスピードアップを達成する。
論文 参考訳(メタデータ) (2019-12-30T08:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。