論文の概要: Dual-Delayed Asynchronous SGD for Arbitrarily Heterogeneous Data
- arxiv url: http://arxiv.org/abs/2405.16966v1
- Date: Mon, 27 May 2024 09:00:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 16:11:45.380338
- Title: Dual-Delayed Asynchronous SGD for Arbitrarily Heterogeneous Data
- Title(参考訳): 任意不均一データのための2遅延非同期SGD
- Authors: Xiaolu Wang, Yuchang Sun, Hoi-To Wai, Jun Zhang,
- Abstract要約: 我々は、中央サーバのオーケストレーションの下で、複数のワーカにまたがるデータによる分散学習問題を考察する。
データ繰り返しの悪影響を考慮に入れたテキスト遅延非同期SGD(DuDe-ASGD)アルゴリズムを提案する。
DuDe-ASGDは非同期トレーニング中にすべてのワーカーからの静的な勾配をフルに利用し、モデルパラメータとサーバで使用されるデータサンプルに2つの時間ラグをもたらす。
- 参考スコア(独自算出の注目度): 22.917944307972434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the distributed learning problem with data dispersed across multiple workers under the orchestration of a central server. Asynchronous Stochastic Gradient Descent (SGD) has been widely explored in such a setting to reduce the synchronization overhead associated with parallelization. However, the performance of asynchronous SGD algorithms often depends on a bounded dissimilarity condition among the workers' local data, a condition that can drastically affect their efficiency when the workers' data are highly heterogeneous. To overcome this limitation, we introduce the \textit{dual-delayed asynchronous SGD (DuDe-ASGD)} algorithm designed to neutralize the adverse effects of data heterogeneity. DuDe-ASGD makes full use of stale stochastic gradients from all workers during asynchronous training, leading to two distinct time lags in the model parameters and data samples utilized in the server's iterations. Furthermore, by adopting an incremental aggregation strategy, DuDe-ASGD maintains a per-iteration computational cost that is on par with traditional asynchronous SGD algorithms. Our analysis demonstrates that DuDe-ASGD achieves a near-minimax-optimal convergence rate for smooth nonconvex problems, even when the data across workers are extremely heterogeneous. Numerical experiments indicate that DuDe-ASGD compares favorably with existing asynchronous and synchronous SGD-based algorithms.
- Abstract(参考訳): 我々は、中央サーバのオーケストレーションの下で、複数のワーカに分散したデータによる分散学習問題を考察する。
Asynchronous Stochastic Gradient Descent (SGD) は並列化に伴う同期オーバーヘッドを低減するために広く研究されている。
しかし、非同期SGDアルゴリズムの性能は、労働者の局所データ間の有界な相似性条件に依存することが多い。
この制限を克服するために、データ不均一性の悪影響を和らげるために設計された、textit{dual-delayed asynchronous SGD (DuDe-ASGD)}アルゴリズムを導入する。
DuDe-ASGDは非同期トレーニング中にすべてのワーカーから静的勾配をフルに利用し、モデルパラメータとサーバのイテレーションで使用されるデータサンプルに2つの異なる時間ラグをもたらす。
さらに、インクリメンタルアグリゲーション戦略を採用することで、DuDe-ASGDは従来の非同期SGDアルゴリズムと同等のイテレーション毎の計算コストを維持できる。
本分析により,DuDe-ASGDは,作業者間のデータが極めて不均一であっても,スムーズな非凸問題に対して,最小限の収束率が得られることを示した。
数値実験により、DuDe-ASGDは既存の非同期および同期SGDベースのアルゴリズムと良好に比較できることが示された。
関連論文リスト
- MindFlayer: Efficient Asynchronous Parallel SGD in the Presence of Heterogeneous and Random Worker Compute Times [49.1574468325115]
並列作業者の助けを借りてスムーズな非関数の期待を最小化する問題について検討する。
本稿では,ノイズの重み付けを行う新しい非同期SGD手法であるMindlayer SGDを提案する。
我々の理論は、ノイズが重く尾行されている場合に、Mindlayer SGDの優位性を実証するものである。
論文 参考訳(メタデータ) (2024-10-05T21:11:32Z) - Distributed Stochastic Gradient Descent with Staleness: A Stochastic Delay Differential Equation Based Framework [56.82432591933544]
分散勾配降下(SGD)は、計算リソースのスケーリング、トレーニング時間の短縮、マシンラーニングにおけるユーザのプライバシ保護の支援などにより、近年注目されている。
本稿では,遅延微分方程式(SDDE)と勾配到着の近似に基づく分散SGDの実行時間と安定化について述べる。
活性化作業員の増加は, 安定度による分散SGDを必ずしも加速させるものではないことが興味深い。
論文 参考訳(メタデータ) (2024-06-17T02:56:55Z) - DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - Shadowheart SGD: Distributed Asynchronous SGD with Optimal Time Complexity Under Arbitrary Computation and Communication Heterogeneity [85.92481138826949]
我々は,従来の集中型手法の時間的複雑さを確実に改善する新しい手法であるShadowheart SGDを開発した。
また、サーバからワーカーへのブロードキャストが無視できない双方向設定も検討し、対応する方法を開発した。
論文 参考訳(メタデータ) (2024-02-07T12:15:56Z) - Asynchronous Distributed Optimization with Delay-free Parameters [9.062164411594175]
本稿では,2つの分散アルゴリズム, Prox-DGD と DGD-ATC の非同期バージョンを開発し,無方向性ネットワーク上でのコンセンサス最適化問題を解く。
代替アルゴリズムとは対照的に,我々のアルゴリズムは,遅延に依存しないステップサイズを用いて,同期アルゴリズムの固定点集合に収束することができる。
論文 参考訳(メタデータ) (2023-12-11T16:33:38Z) - Asynchronous SGD on Graphs: a Unified Framework for Asynchronous
Decentralized and Federated Optimization [13.119144971868632]
本稿では,グラフ上での非同期SGD(AGRAF SGD)について紹介する。
従来の分散非同期計算処理よりも遥かに穏やかな仮定の下で収束率を提供する。
論文 参考訳(メタデータ) (2023-11-01T11:58:16Z) - AsGrad: A Sharp Unified Analysis of Asynchronous-SGD Algorithms [45.90015262911875]
不均一な環境で分散SGDのための非同期型アルゴリズムを解析する。
また,本分析の副産物として,ランダムなきついSGDのような勾配型アルゴリズムの保証を示す。
論文 参考訳(メタデータ) (2023-10-31T13:44:53Z) - Towards Understanding the Generalizability of Delayed Stochastic
Gradient Descent [63.43247232708004]
非同期で実行される勾配降下は、大規模機械学習モデルのトレーニングにおいて重要な役割を果たす。
既存の一般化誤差境界は悲観的であり、非同期遅延と一般化の相関を明らかにすることはできない。
我々の理論的結果は、非同期遅延は遅延SGDアルゴリズムの一般化誤差を低減することを示唆している。
論文 参考訳(メタデータ) (2023-08-18T10:00:27Z) - Robust Fully-Asynchronous Methods for Distributed Training over General Architecture [11.480605289411807]
分散機械学習問題における完全な同期は、レイテンシ、パッケージの損失、ストラグラーの存在のため、非効率であり、不可能である。
本稿では,R-FAST (Fully-Asynchronous Gradient Tracking Method) を提案する。
論文 参考訳(メタデータ) (2023-07-21T14:36:40Z) - Slow and Stale Gradients Can Win the Race [39.750046808758526]
同期的に実行される分散Gradient Descent(SGD)は、最も遅いワーカー(ストラグラー)を待つとき、実行時の遅延に悩まされる。
非同期手法はストラグラーを緩和するが、収束誤差に悪影響を及ぼす勾配の安定化を引き起こす。
本稿では,訓練されたモデルにおけるエラーと実際のトレーニング実行時のトレードオフを解析し,非同期手法によって提供される高速化の理論的特徴について述べる。
論文 参考訳(メタデータ) (2020-03-23T23:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。