論文の概要: Slow and Stale Gradients Can Win the Race
- arxiv url: http://arxiv.org/abs/2003.10579v1
- Date: Mon, 23 Mar 2020 23:27:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 23:59:04.310852
- Title: Slow and Stale Gradients Can Win the Race
- Title(参考訳): Slow and Stale Gradientsはレースに勝てる
- Authors: Sanghamitra Dutta, Jianyu Wang, Gauri Joshi
- Abstract要約: 同期的に実行される分散Gradient Descent(SGD)は、最も遅いワーカー(ストラグラー)を待つとき、実行時の遅延に悩まされる。
非同期手法はストラグラーを緩和するが、収束誤差に悪影響を及ぼす勾配の安定化を引き起こす。
本稿では,訓練されたモデルにおけるエラーと実際のトレーニング実行時のトレードオフを解析し,非同期手法によって提供される高速化の理論的特徴について述べる。
- 参考スコア(独自算出の注目度): 39.750046808758526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed Stochastic Gradient Descent (SGD) when run in a synchronous
manner, suffers from delays in runtime as it waits for the slowest workers
(stragglers). Asynchronous methods can alleviate stragglers, but cause gradient
staleness that can adversely affect the convergence error. In this work, we
present a novel theoretical characterization of the speedup offered by
asynchronous methods by analyzing the trade-off between the error in the
trained model and the actual training runtime(wallclock time). The main novelty
in our work is that our runtime analysis considers random straggling delays,
which helps us design and compare distributed SGD algorithms that strike a
balance between straggling and staleness. We also provide a new error
convergence analysis of asynchronous SGD variants without bounded or
exponential delay assumptions. Finally, based on our theoretical
characterization of the error-runtime trade-off, we propose a method of
gradually varying synchronicity in distributed SGD and demonstrate its
performance on CIFAR10 dataset.
- Abstract(参考訳): 分散確率勾配降下(distributed stochasticgradient descent, sgd) 同期方式で実行すると、最も遅い作業者(ストラグラー)を待つため、実行時に遅延が発生する。
非同期メソッドはストラグラーを緩和するが、収束エラーに悪影響を及ぼす勾配不安定を引き起こす。
本稿では,非同期手法によって提供される高速化の理論的特徴を,トレーニングモデルにおける誤差と実際のトレーニング実行時間(ウォールクロック時間)とのトレードオフを解析して述べる。
私たちの研究の主な特徴は、実行時解析がランダムなストラグリング遅延を考慮し、ストラグリングと安定化のバランスをとる分散SGDアルゴリズムの設計と比較に役立ちます。
また,有界あるいは指数的遅延仮定を伴わない非同期SGD変種に対する新しい誤り収束解析も提供する。
最後に,誤差ランタイムトレードオフの理論的特徴から,分散SGDにおける同期性を徐々に変化させる手法を提案し,その性能をCIFAR10データセット上で実証する。
関連論文リスト
- MindFlayer: Efficient Asynchronous Parallel SGD in the Presence of Heterogeneous and Random Worker Compute Times [49.1574468325115]
並列作業者の助けを借りてスムーズな非関数の期待を最小化する問題について検討する。
本稿では,ノイズの重み付けを行う新しい非同期SGD手法であるMindlayer SGDを提案する。
我々の理論は、ノイズが重く尾行されている場合に、Mindlayer SGDの優位性を実証するものである。
論文 参考訳(メタデータ) (2024-10-05T21:11:32Z) - Distributed Stochastic Gradient Descent with Staleness: A Stochastic Delay Differential Equation Based Framework [56.82432591933544]
分散勾配降下(SGD)は、計算リソースのスケーリング、トレーニング時間の短縮、マシンラーニングにおけるユーザのプライバシ保護の支援などにより、近年注目されている。
本稿では,遅延微分方程式(SDDE)と勾配到着の近似に基づく分散SGDの実行時間と安定化について述べる。
活性化作業員の増加は, 安定度による分散SGDを必ずしも加速させるものではないことが興味深い。
論文 参考訳(メタデータ) (2024-06-17T02:56:55Z) - Dual-Delayed Asynchronous SGD for Arbitrarily Heterogeneous Data [22.917944307972434]
我々は、中央サーバのオーケストレーションの下で、複数のワーカにまたがるデータによる分散学習問題を考察する。
データ繰り返しの悪影響を考慮に入れたテキスト遅延非同期SGD(DuDe-ASGD)アルゴリズムを提案する。
DuDe-ASGDは非同期トレーニング中にすべてのワーカーからの静的な勾配をフルに利用し、モデルパラメータとサーバで使用されるデータサンプルに2つの時間ラグをもたらす。
論文 参考訳(メタデータ) (2024-05-27T09:00:30Z) - Asynchronous Distributed Optimization with Delay-free Parameters [9.062164411594175]
本稿では,2つの分散アルゴリズム, Prox-DGD と DGD-ATC の非同期バージョンを開発し,無方向性ネットワーク上でのコンセンサス最適化問題を解く。
代替アルゴリズムとは対照的に,我々のアルゴリズムは,遅延に依存しないステップサイズを用いて,同期アルゴリズムの固定点集合に収束することができる。
論文 参考訳(メタデータ) (2023-12-11T16:33:38Z) - AsGrad: A Sharp Unified Analysis of Asynchronous-SGD Algorithms [45.90015262911875]
不均一な環境で分散SGDのための非同期型アルゴリズムを解析する。
また,本分析の副産物として,ランダムなきついSGDのような勾配型アルゴリズムの保証を示す。
論文 参考訳(メタデータ) (2023-10-31T13:44:53Z) - Towards Understanding the Generalizability of Delayed Stochastic
Gradient Descent [63.43247232708004]
非同期で実行される勾配降下は、大規模機械学習モデルのトレーニングにおいて重要な役割を果たす。
既存の一般化誤差境界は悲観的であり、非同期遅延と一般化の相関を明らかにすることはできない。
我々の理論的結果は、非同期遅延は遅延SGDアルゴリズムの一般化誤差を低減することを示唆している。
論文 参考訳(メタデータ) (2023-08-18T10:00:27Z) - Asynchronous SGD Beats Minibatch SGD Under Arbitrary Delays [8.46491234455848]
ステップの数だけでなく、ステップの遅延にもよらず、同じ非同期勾配の保証がずっと良いことを証明しています。
そこで本研究では,「仮想ステップ」と「遅延反復」に基づいて,両凸非適応勾配に対する最先端保証を導出する手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T16:28:37Z) - Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。
DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文 参考訳(メタデータ) (2021-07-06T21:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。