論文の概要: Adaptive Stochastic Gradient Descent for Fast and
Communication-Efficient Distributed Learning
- arxiv url: http://arxiv.org/abs/2208.03134v1
- Date: Thu, 4 Aug 2022 10:57:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-08 13:19:54.621929
- Title: Adaptive Stochastic Gradient Descent for Fast and
Communication-Efficient Distributed Learning
- Title(参考訳): 高速かつ通信効率の良い分散学習のための適応確率勾配決定
- Authors: Serge Kas Hanna and Rawad Bitar and Parimal Parag and Venkat Dasari
and Salim El Rouayheb
- Abstract要約: マスタが分散降下(SGD)アルゴリズムを$n$ワーカー上で実行したい場合について検討する。
本研究では,分散SGDの適応バージョンが非適応実装と比較して少ない時間で低い誤差値に達することを示す。
- 参考スコア(独自算出の注目度): 33.590006101071765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the setting where a master wants to run a distributed stochastic
gradient descent (SGD) algorithm on $n$ workers, each having a subset of the
data. Distributed SGD may suffer from the effect of stragglers, i.e., slow or
unresponsive workers who cause delays. One solution studied in the literature
is to wait at each iteration for the responses of the fastest $k<n$ workers
before updating the model, where $k$ is a fixed parameter. The choice of the
value of $k$ presents a trade-off between the runtime (i.e., convergence rate)
of SGD and the error of the model. Towards optimizing the error-runtime
trade-off, we investigate distributed SGD with adaptive~$k$, i.e., varying $k$
throughout the runtime of the algorithm. We first design an adaptive policy for
varying $k$ that optimizes this trade-off based on an upper bound on the error
as a function of the wall-clock time that we derive. Then, we propose and
implement an algorithm for adaptive distributed SGD that is based on a
statistical heuristic. Our results show that the adaptive version of
distributed SGD can reach lower error values in less time compared to
non-adaptive implementations. Moreover, the results also show that the adaptive
version is communication-efficient, where the amount of communication required
between the master and the workers is less than that of non-adaptive versions.
- Abstract(参考訳): 我々は、マスターが分散確率勾配勾配(SGD)アルゴリズムを$n$ワーカー上で実行したい場合、それぞれがデータのサブセットを持っていることを考察する。
分散SGDは、遅延を引き起こす遅い労働者や非応答労働者の影響に悩まされることがある。
文献で研究されている解決策の1つは、モデルを更新する前に、最速の$k<n$ワーカーのレスポンスを各イテレーションで待機することである。
k$の値の選択は、SGDのランタイム(つまり収束率)とモデルのエラーの間のトレードオフを示す。
エラー実行時のトレードオフを最適化するために,アルゴリズムの実行時間を通じて,分散SGDを適応〜$k$,すなわち,$k$の変化で調べる。
我々はまず,壁面時間関数としてエラーの上限値に基づいて,このトレードオフを最適化する,様々な$k$の適応ポリシーを設計する。
そこで我々は,統計的ヒューリスティックに基づく適応分散SGDのアルゴリズムを提案し,実装する。
その結果,分散SGDの適応バージョンは,非適応実装と比較して少ない時間で低い誤差値が得られることがわかった。
さらに、適応版は通信効率が良く、マスターとワーカ間の通信に必要な量は非適応版よりも少ないことを示した。
関連論文リスト
- DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - Federated Learning Using Variance Reduced Stochastic Gradient for
Probabilistically Activated Agents [0.0]
本稿では,各エージェントが各反復において任意の選択の確率を持つような最適解に対して,分散低減と高速収束率の両方を達成する2層構造を持つフェデレートラーニング(FL)のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-25T22:04:49Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - DR-DSGD: A Distributionally Robust Decentralized Learning Algorithm over
Graphs [54.08445874064361]
本稿では,分散環境下での正規化された分散ロバストな学習問題を解くことを提案する。
Kullback-Liebler正規化関数をロバストなmin-max最適化問題に追加することにより、学習問題を修正されたロバストな問題に還元することができる。
提案アルゴリズムは, 最低分布検定精度を最大10%向上できることを示す。
論文 参考訳(メタデータ) (2022-08-29T18:01:42Z) - Sharper Convergence Guarantees for Asynchronous SGD for Distributed and
Federated Learning [77.22019100456595]
通信周波数の異なる分散計算作業者のトレーニングアルゴリズムを示す。
本研究では,より厳密な収束率を$mathcalO!!(sigma2-2_avg!)とする。
また,不均一性の項は,作業者の平均遅延によっても影響されることを示した。
論文 参考訳(メタデータ) (2022-06-16T17:10:57Z) - Guided parallelized stochastic gradient descent for delay compensation [0.0]
勾配降下(sgd)アルゴリズムとそのバリエーションは、ニューラルネットワークモデルの最適化に効果的に使われている。
ビッグデータとディープラーニングの急速な成長により、SGDはエラー関数の逐次最適化の自然な振る舞いのために、もはや最も適した選択ではありません。
これにより、非同期SGD(ASGD)や同期SGD(SSGD)といった並列SGDアルゴリズムが開発され、ディープニューラルネットワークのトレーニングが行われている。
論文 参考訳(メタデータ) (2021-01-17T23:12:40Z) - Avoiding Communication in Logistic Regression [1.7780157772002312]
勾配降下(SGD)は、様々な機械学習問題を解くために最も広く使われている最適化手法の1つである。
並列的な設定では、SGDはイテレーション毎にプロセス間通信を必要とする。
本稿では,SGDを用いたロジスティック回帰問題を解くための新しいコミュニケーション回避手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T21:14:39Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Private Stochastic Non-Convex Optimization: Adaptive Algorithms and
Tighter Generalization Bounds [72.63031036770425]
有界非次元最適化のための差分プライベート(DP)アルゴリズムを提案する。
標準勾配法に対する経験的優位性について,2つの一般的なディープラーニング手法を実証する。
論文 参考訳(メタデータ) (2020-06-24T06:01:24Z) - Adaptive Distributed Stochastic Gradient Descent for Minimizing Delay in
the Presence of Stragglers [31.309253646602933]
我々は、マスターが分散勾配降下(SGD)アルゴリズムを、データのサブセットを持つそれぞれ$n$ワーカー上で実行したいという設定について検討する。
分散SGDは、遅延を引き起こす遅い作業者や非応答的な作業者など、ストラグラーの影響に悩まされることがある。
本稿では,統計的概念に基づく適応分散SGDのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-25T16:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。