論文の概要: AsGrad: A Sharp Unified Analysis of Asynchronous-SGD Algorithms
- arxiv url: http://arxiv.org/abs/2310.20452v1
- Date: Tue, 31 Oct 2023 13:44:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 14:53:41.668740
- Title: AsGrad: A Sharp Unified Analysis of Asynchronous-SGD Algorithms
- Title(参考訳): AsGrad: 非同期SGDアルゴリズムのシャープ統一解析
- Authors: Rustem Islamov and Mher Safaryan and Dan Alistarh
- Abstract要約: 不均一な環境で分散SGDのための非同期型アルゴリズムを解析する。
また,本分析の副産物として,ランダムなきついSGDのような勾配型アルゴリズムの保証を示す。
- 参考スコア(独自算出の注目度): 45.90015262911875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We analyze asynchronous-type algorithms for distributed SGD in the
heterogeneous setting, where each worker has its own computation and
communication speeds, as well as data distribution. In these algorithms,
workers compute possibly stale and stochastic gradients associated with their
local data at some iteration back in history and then return those gradients to
the server without synchronizing with other workers. We present a unified
convergence theory for non-convex smooth functions in the heterogeneous regime.
The proposed analysis provides convergence for pure asynchronous SGD and its
various modifications. Moreover, our theory explains what affects the
convergence rate and what can be done to improve the performance of
asynchronous algorithms. In particular, we introduce a novel asynchronous
method based on worker shuffling. As a by-product of our analysis, we also
demonstrate convergence guarantees for gradient-type algorithms such as SGD
with random reshuffling and shuffle-once mini-batch SGD. The derived rates
match the best-known results for those algorithms, highlighting the tightness
of our approach. Finally, our numerical evaluations support theoretical
findings and show the good practical performance of our method.
- Abstract(参考訳): 分散sgdのための非同期型アルゴリズムを,各作業者が独自の計算と通信速度とデータ分布を持つ異種設定で解析する。
これらのアルゴリズムでは、ワーカは、過去のあるイテレーションでローカルデータに関連する古い勾配と確率勾配を計算し、その勾配を他のワーカと同期することなくサーバに返す。
不均一な状態における非凸滑らかな函数に対する統一収束理論を提案する。
提案する解析は、純粋な非同期sgdとその様々な変更に対する収束を提供する。
さらに, この理論は, 収束率にどのような影響を及ぼすか, 非同期アルゴリズムの性能を向上させるために何ができるかを説明する。
特に,労働者シャッフルに基づく新しい非同期手法を提案する。
また,本分析の副産物として,ランダムリシャッフルのSGDやシャッフルオンスミニバッチSGDなどの勾配型アルゴリズムの収束保証を示す。
導出レートはこれらのアルゴリズムの最もよく知られた結果と一致し、アプローチの厳密さを強調します。
最後に, 数値評価により理論的知見が得られ, 本手法の実用性が示された。
関連論文リスト
- MindFlayer: Efficient Asynchronous Parallel SGD in the Presence of Heterogeneous and Random Worker Compute Times [49.1574468325115]
並列作業者の助けを借りてスムーズな非関数の期待を最小化する問題について検討する。
本稿では,ノイズの重み付けを行う新しい非同期SGD手法であるMindlayer SGDを提案する。
我々の理論は、ノイズが重く尾行されている場合に、Mindlayer SGDの優位性を実証するものである。
論文 参考訳(メタデータ) (2024-10-05T21:11:32Z) - Dual-Delayed Asynchronous SGD for Arbitrarily Heterogeneous Data [22.917944307972434]
我々は、中央サーバのオーケストレーションの下で、複数のワーカにまたがるデータによる分散学習問題を考察する。
データ繰り返しの悪影響を考慮に入れたテキスト遅延非同期SGD(DuDe-ASGD)アルゴリズムを提案する。
DuDe-ASGDは非同期トレーニング中にすべてのワーカーからの静的な勾配をフルに利用し、モデルパラメータとサーバで使用されるデータサンプルに2つの時間ラグをもたらす。
論文 参考訳(メタデータ) (2024-05-27T09:00:30Z) - Towards Understanding the Generalizability of Delayed Stochastic
Gradient Descent [63.43247232708004]
非同期で実行される勾配降下は、大規模機械学習モデルのトレーニングにおいて重要な役割を果たす。
既存の一般化誤差境界は悲観的であり、非同期遅延と一般化の相関を明らかにすることはできない。
我々の理論的結果は、非同期遅延は遅延SGDアルゴリズムの一般化誤差を低減することを示唆している。
論文 参考訳(メタデータ) (2023-08-18T10:00:27Z) - Asynchronous SGD Beats Minibatch SGD Under Arbitrary Delays [8.46491234455848]
ステップの数だけでなく、ステップの遅延にもよらず、同じ非同期勾配の保証がずっと良いことを証明しています。
そこで本研究では,「仮想ステップ」と「遅延反復」に基づいて,両凸非適応勾配に対する最先端保証を導出する手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T16:28:37Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - A Stochastic Newton Algorithm for Distributed Convex Optimization [62.20732134991661]
均質な分散凸最適化のためのNewtonアルゴリズムを解析し、各マシンが同じ人口目標の勾配を計算する。
提案手法は,既存の手法と比較して,性能を損なうことなく,必要な通信ラウンドの数,頻度を低減できることを示す。
論文 参考訳(メタデータ) (2021-10-07T17:51:10Z) - Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。
DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文 参考訳(メタデータ) (2021-07-06T21:59:49Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z) - A Hybrid-Order Distributed SGD Method for Non-Convex Optimization to
Balance Communication Overhead, Computational Complexity, and Convergence
Rate [28.167294398293297]
通信負荷の少ない分散勾配降下法(SGD)を提案する。
各イテレーションにおける計算複雑性を低減するために、ワーカノードは、方向微分をゼロ階勾配推定で近似する。
論文 参考訳(メタデータ) (2020-03-27T14:02:15Z) - Slow and Stale Gradients Can Win the Race [39.750046808758526]
同期的に実行される分散Gradient Descent(SGD)は、最も遅いワーカー(ストラグラー)を待つとき、実行時の遅延に悩まされる。
非同期手法はストラグラーを緩和するが、収束誤差に悪影響を及ぼす勾配の安定化を引き起こす。
本稿では,訓練されたモデルにおけるエラーと実際のトレーニング実行時のトレードオフを解析し,非同期手法によって提供される高速化の理論的特徴について述べる。
論文 参考訳(メタデータ) (2020-03-23T23:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。