論文の概要: Overlap Local-SGD: An Algorithmic Approach to Hide Communication Delays
in Distributed SGD
- arxiv url: http://arxiv.org/abs/2002.09539v1
- Date: Fri, 21 Feb 2020 20:33:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 01:09:37.444974
- Title: Overlap Local-SGD: An Algorithmic Approach to Hide Communication Delays
in Distributed SGD
- Title(参考訳): Overlap Local-SGD:分散SGDにおける秘密通信遅延のアルゴリズム的アプローチ
- Authors: Jianyu Wang, Hao Liang, Gauri Joshi
- Abstract要約: We propose a algorithmic approach named OverlapLocal-Local-Local-SGD (Local momentum variant)。
各ノードにアンカーモデルを追加することでこれを実現する。
複数のローカルアップデートの後、ローカルにトレーニングされたモデルは、他の人と通信するのではなく、アンカーモデルへと引き戻される。
- 参考スコア(独自算出の注目度): 32.03967072200476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed stochastic gradient descent (SGD) is essential for scaling the
machine learning algorithms to a large number of computing nodes. However, the
infrastructures variability such as high communication delay or random node
slowdown greatly impedes the performance of distributed SGD algorithm,
especially in a wireless system or sensor networks. In this paper, we propose
an algorithmic approach named Overlap-Local-SGD (and its momentum variant) to
overlap the communication and computation so as to speedup the distributed
training procedure. The approach can help to mitigate the straggler effects as
well. We achieve this by adding an anchor model on each node. After multiple
local updates, locally trained models will be pulled back towards the
synchronized anchor model rather than communicating with others. Experimental
results of training a deep neural network on CIFAR-10 dataset demonstrate the
effectiveness of Overlap-Local-SGD. We also provide a convergence guarantee for
the proposed algorithm under non-convex objective functions.
- Abstract(参考訳): 分散確率勾配勾配(SGD)は、機械学習アルゴリズムを多数の計算ノードに拡張するために不可欠である。
しかし、通信遅延やランダムノードの遅延といったインフラストラクチャの変動は、特に無線システムやセンサネットワークにおいて分散SGDアルゴリズムの性能を著しく損なう。
本稿では,分散学習手順を高速化するために,通信と計算を重ね合わせるアルゴリズムとしてoverload-local-sgd(およびmomental variant)を提案する。
このアプローチはストラグラー効果を緩和するのにも役立つ。
各ノードにアンカーモデルを追加することでこれを実現する。
複数のローカル更新の後、ローカルにトレーニングされたモデルは、他の人と通信するのではなく、同期されたアンカーモデルへと引き戻される。
CIFAR-10データセットを用いたディープニューラルネットワークのトレーニング実験の結果,Overlap-Local-SGDの有効性が示された。
また,提案アルゴリズムに対する非凸目的関数の収束保証を提供する。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Faster Convergence with Less Communication: Broadcast-Based Subgraph
Sampling for Decentralized Learning over Wireless Networks [32.914407967052114]
$texttBASS$はD-SGDの収束を加速するために設計された放送ベースのサブグラフサンプリング手法である。
既存のリンクベースのスケジューリング手法と比較して,送信スロットが少ないため,$texttBASS$はより高速な収束を可能にする。
論文 参考訳(メタデータ) (2024-01-24T20:00:23Z) - DIGEST: Fast and Communication Efficient Decentralized Learning with Local Updates [4.3707341422218215]
広く検討されている分散学習アルゴリズムは、Gossipとランダムウォークベースの学習である。
高速で通信効率のよい非同期分散学習機構DIGESTを設計する。
我々は、ロジスティック回帰とディープニューラルネットワークResNet20のためのシングルストリームおよびマルチストリームDIGESTの性能を評価する。
論文 参考訳(メタデータ) (2023-07-14T22:58:20Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Locally Asynchronous Stochastic Gradient Descent for Decentralised Deep
Learning [0.0]
Local Asynchronous SGD (LASGD) は、モデル同期にAll Reduceに依存する非同期分散アルゴリズムである。
ImageNetデータセット上の画像分類タスクにおいて、LASGDの性能を実証的に検証する。
論文 参考訳(メタデータ) (2022-03-24T14:25:15Z) - Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。
DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文 参考訳(メタデータ) (2021-07-06T21:59:49Z) - Partitioning sparse deep neural networks for scalable training and
inference [8.282177703075453]
最先端のディープニューラルネットワーク(DNN)には、計算とデータ管理の大幅な要件がある。
スパシフィケーション法とプルーニング法は,DNNの大量の接続を除去するのに有効であることが示されている。
その結果得られたスパースネットワークは、ディープラーニングにおけるトレーニングと推論の計算効率をさらに向上するためのユニークな課題を提示する。
論文 参考訳(メタデータ) (2021-04-23T20:05:52Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。