論文の概要: Variance Reduced Local SGD with Lower Communication Complexity
- arxiv url: http://arxiv.org/abs/1912.12844v1
- Date: Mon, 30 Dec 2019 08:15:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-17 02:26:24.476854
- Title: Variance Reduced Local SGD with Lower Communication Complexity
- Title(参考訳): 通信複雑度が低い局所SGDのばらつき低減
- Authors: Xianfeng Liang, Shuheng Shen, Jingchang Liu, Zhen Pan, Enhong Chen,
Yifei Cheng
- Abstract要約: 本稿では,通信の複雑さをさらに軽減するために,分散化ローカルSGDを提案する。
VRL-SGDは、労働者が同一でないデータセットにアクセスしても、通信の複雑さが低い$O(Tfrac12 Nfrac32)$で、エンフラーイテレーションのスピードアップを達成する。
- 参考スコア(独自算出の注目度): 52.44473777232414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To accelerate the training of machine learning models, distributed stochastic
gradient descent (SGD) and its variants have been widely adopted, which apply
multiple workers in parallel to speed up training. Among them, Local SGD has
gained much attention due to its lower communication cost. Nevertheless, when
the data distribution on workers is non-identical, Local SGD requires
$O(T^{\frac{3}{4}} N^{\frac{3}{4}})$ communications to maintain its
\emph{linear iteration speedup} property, where $T$ is the total number of
iterations and $N$ is the number of workers. In this paper, we propose Variance
Reduced Local SGD (VRL-SGD) to further reduce the communication complexity.
Benefiting from eliminating the dependency on the gradient variance among
workers, we theoretically prove that VRL-SGD achieves a \emph{linear iteration
speedup} with a lower communication complexity $O(T^{\frac{1}{2}}
N^{\frac{3}{2}})$ even if workers access non-identical datasets. We conduct
experiments on three machine learning tasks, and the experimental results
demonstrate that VRL-SGD performs impressively better than Local SGD when the
data among workers are quite diverse.
- Abstract(参考訳): 機械学習モデルのトレーニングを加速するために、分散確率勾配降下(SGD)とその変種が広く採用され、トレーニングを高速化するために複数のワーカーが並行して適用されている。
中でもローカルSGDは通信コストの低さから注目されている。
それでも、ワーカのデータ分散が識別不能である場合、ローカルsgd は \emph{linear iteration speedup} プロパティを維持するために $o(t^{\frac{3}{4}} n^{\frac{3}{4}})$ communications を必要とし、ここで $t$ は反復の総数、$n$ はワーカ数である。
本稿では, 通信の複雑さをさらに軽減するために, Variance Reduced Local SGD (VRL-SGD) を提案する。
vrl-sgdは、労働者間の勾配分散の依存性をなくすことで、たとえ労働者が非同一のデータセットにアクセスしたとしても、より低い通信複雑性である$o(t^{\frac{1}{2}} n^{\frac{3}{2}})$の \emph{linear iteration speedup} を達成できることを理論的に証明する。
3つの機械学習タスクについて実験を行い,vrl-sgdは,作業者間のデータが極めて多様である場合,ローカルsgdよりも優れた性能を示す。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Sparse-SignSGD with Majority Vote for Communication-Efficient
Distributed Learning [20.22227794319504]
$sf S3$GD-MVは通信効率の高い分散最適化アルゴリズムである。
通信コストを大幅に削減しつつ,SignSGDと同等の速度で収束することを示す。
これらの知見は、深層学習における通信効率の高い分散最適化のための有望なソリューションとして、$sf S3$GD-MVの可能性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-02-15T05:36:41Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Offline Reinforcement Learning at Multiple Frequencies [62.08749079914275]
本研究では、オフライン強化学習アルゴリズムが、トレーニング中に複数の周波数を混合したデータに対応できるかどうかについて検討する。
学習を安定させるために$Q$-valueの更新率で一貫性を強制する、単純だが効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:54:49Z) - Trade-offs of Local SGD at Scale: An Empirical Study [24.961068070560344]
通信オーバヘッドを低減するため,ローカルSGDと呼ばれる手法について検討する。
ローカルSGDの実行には,通信コストの低減(トレーニングの高速化)と精度の低下が伴う。
また、低速運動量フレームワークを組み込むことで、追加の通信を必要とせず、常に精度が向上することを示す。
論文 参考訳(メタデータ) (2021-10-15T15:00:42Z) - Communication-efficient SGD: From Local SGD to One-Shot Averaging [16.00658606157781]
複数の作業者に対して並列化することで,勾配降下(SGD)の高速化を検討する。
そこで本研究では,反復数の増加に伴って通信頻度を小さくすることで,全体の通信を減らし,局所的なSGD方式を提案する。
論文 参考訳(メタデータ) (2021-06-09T01:10:34Z) - Why Does Multi-Epoch Training Help? [62.946840431501855]
経験的に、トレーニングデータ(マルチパスSGD)を1回通過する方が、トレーニングデータ(ワンパスSGD)のみを1回通過するSGDよりもはるかに優れたリスクバウンド性能を有することが観察されている。
本稿では,トレーニングデータの複数パスが,特定の状況下での性能向上に有効である理由を理論的根拠として提示する。
論文 参考訳(メタデータ) (2021-05-13T00:52:25Z) - Gradient Coding with Dynamic Clustering for Straggler-Tolerant
Distributed Learning [55.052517095437]
勾配降下(GD)は、複数の労働者にデータセットを分散することで学習タスクの並列化に広く用いられている。
分散同期gdにおけるイテレーション完了時間ごとの重要なパフォーマンスボトルネックは$straggling$ workersである。
コード化された分散技術は、最近ストラグラーを緩和し、労働者に冗長な計算を割り当てることでgdイテレーションを高速化するために導入された。
本稿では,従来のトラグリング動作に依存する可能性のあるコードの中から,冗長なデータを労働者に割り当てて選択する動的GC方式を提案する。
論文 参考訳(メタデータ) (2021-03-01T18:51:29Z) - STL-SGD: Speeding Up Local SGD with Stagewise Communication Period [19.691927007250417]
局所勾配降下 (Local SGD) は通信の複雑さが低いために注目されている。
STL-SGDはミニバッチSGDと同じ収束率と線形スピードアップを保持することができる。
凸問題とノンフラクチャー問題の両方の実験は、STL-SGDの優れた性能を示している。
論文 参考訳(メタデータ) (2020-06-11T12:48:17Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。