Fugu-MT 論文翻訳(概要): Asynchronous SGD Beats Minibatch SGD Under Arbitrary Delays

論文の概要: Asynchronous SGD Beats Minibatch SGD Under Arbitrary Delays

arxiv url: http://arxiv.org/abs/2206.07638v2
Date: Thu, 20 Apr 2023 08:20:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-21 17:37:06.618933
Title: Asynchronous SGD Beats Minibatch SGD Under Arbitrary Delays
Title（参考訳）: 非同期SGDが任意遅延下でのミニバッチSGDを上回る
Authors: Konstantin Mishchenko, Francis Bach, Mathieu Even, Blake Woodworth
Abstract要約: ステップの数だけでなく、ステップの遅延にもよらず、同じ非同期勾配の保証がずっと良いことを証明しています。そこで本研究では,「仮想ステップ」と「遅延反復」に基づいて,両凸非適応勾配に対する最先端保証を導出する手法を提案する。
参考スコア（独自算出の注目度）: 8.46491234455848
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The existing analysis of asynchronous stochastic gradient descent (SGD) degrades dramatically when any delay is large, giving the impression that performance depends primarily on the delay. On the contrary, we prove much better guarantees for the same asynchronous SGD algorithm regardless of the delays in the gradients, depending instead just on the number of parallel devices used to implement the algorithm. Our guarantees are strictly better than the existing analyses, and we also argue that asynchronous SGD outperforms synchronous minibatch SGD in the settings we consider. For our analysis, we introduce a novel recursion based on "virtual iterates" and delay-adaptive stepsizes, which allow us to derive state-of-the-art guarantees for both convex and non-convex objectives.
Abstract（参考訳）: 非同期確率勾配降下(SGD)の既存の解析は、遅延が大きいと劇的に劣化し、性能が主に遅延に依存するという印象を与える。それとは対照的に,アルゴリズムの実装に使用する並列デバイス数に依存するため,勾配の遅延によらず,同じ非同期SGDアルゴリズムの保証がはるかに優れていることを示す。我々の保証は既存の分析より厳格に優れており、非同期SGDは我々が考慮している設定において同期ミニバッチSGDより優れているとも主張する。本研究では,「仮想イテレート」と遅延適応ステップに基づく新しい帰納法を導入し,凸目的と非凸目的の両方に対する最先端保証を導出する。

関連論文リスト

Nesterov Method for Asynchronous Pipeline Parallel Optimization [59.79227116582264]
パイプライン並列処理における非同期最適化のために,Nesterov Accelerated Gradient (NAG) の変種を導入する。具体的には、NAGのルックアヘッドステップを変更して、勾配の安定性を効果的に解決する。我々は、勾配の固定遅延の存在下で、我々のアプローチがサブ線形速度で収束することを理論的に証明する。
論文参考訳（メタデータ） (2025-05-02T08:23:29Z)
Ringmaster ASGD: The First Asynchronous SGD with Optimal Time Complexity [92.1840862558718]
Ringmaster ASGDは任意に不均一な計算時間の下で最適な時間複雑性を達成する。これにより、このようなシナリオにおける時間複雑性の理論的な下限を満たす最初の非同期SGD法となる。
論文参考訳（メタデータ） (2025-01-27T16:07:26Z)
MindFlayer: Efficient Asynchronous Parallel SGD in the Presence of Heterogeneous and Random Worker Compute Times [49.1574468325115]
並列作業者の助けを借りてスムーズな非関数の期待を最小化する問題について検討する。本稿では,ノイズの重み付けを行う新しい非同期SGD手法であるMindlayer SGDを提案する。我々の理論は、ノイズが重く尾行されている場合に、Mindlayer SGDの優位性を実証するものである。
論文参考訳（メタデータ） (2024-10-05T21:11:32Z)
Distributed Stochastic Gradient Descent with Staleness: A Stochastic Delay Differential Equation Based Framework [56.82432591933544]
分散勾配降下(SGD)は、計算リソースのスケーリング、トレーニング時間の短縮、マシンラーニングにおけるユーザのプライバシ保護の支援などにより、近年注目されている。本稿では,遅延微分方程式(SDDE)と勾配到着の近似に基づく分散SGDの実行時間と安定化について述べる。活性化作業員の増加は, 安定度による分散SGDを必ずしも加速させるものではないことが興味深い。
論文参考訳（メタデータ） (2024-06-17T02:56:55Z)
Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文参考訳（メタデータ） (2024-02-19T03:08:02Z)
Asynchronous Distributed Optimization with Delay-free Parameters [9.062164411594175]
本稿では,2つの分散アルゴリズム, Prox-DGD と DGD-ATC の非同期バージョンを開発し,無方向性ネットワーク上でのコンセンサス最適化問題を解く。代替アルゴリズムとは対照的に,我々のアルゴリズムは,遅延に依存しないステップサイズを用いて,同期アルゴリズムの固定点集合に収束することができる。
論文参考訳（メタデータ） (2023-12-11T16:33:38Z)
AsGrad: A Sharp Unified Analysis of Asynchronous-SGD Algorithms [45.90015262911875]
不均一な環境で分散SGDのための非同期型アルゴリズムを解析する。また,本分析の副産物として,ランダムなきついSGDのような勾配型アルゴリズムの保証を示す。
論文参考訳（メタデータ） (2023-10-31T13:44:53Z)
Towards Understanding the Generalizability of Delayed Stochastic Gradient Descent [63.43247232708004]
非同期で実行される勾配降下は、大規模機械学習モデルのトレーニングにおいて重要な役割を果たす。既存の一般化誤差境界は悲観的であり、非同期遅延と一般化の相関を明らかにすることはできない。我々の理論的結果は、非同期遅延は遅延SGDアルゴリズムの一般化誤差を低減することを示唆している。
論文参考訳（メタデータ） (2023-08-18T10:00:27Z)
Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。 DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文参考訳（メタデータ） (2021-07-06T21:59:49Z)
Guided parallelized stochastic gradient descent for delay compensation [0.0]
勾配降下(sgd)アルゴリズムとそのバリエーションは、ニューラルネットワークモデルの最適化に効果的に使われている。ビッグデータとディープラーニングの急速な成長により、SGDはエラー関数の逐次最適化の自然な振る舞いのために、もはや最も適した選択ではありません。これにより、非同期SGD(ASGD)や同期SGD(SSGD)といった並列SGDアルゴリズムが開発され、ディープニューラルネットワークのトレーニングが行われている。
論文参考訳（メタデータ） (2021-01-17T23:12:40Z)
Slow and Stale Gradients Can Win the Race [39.750046808758526]
同期的に実行される分散Gradient Descent(SGD)は、最も遅いワーカー(ストラグラー)を待つとき、実行時の遅延に悩まされる。非同期手法はストラグラーを緩和するが、収束誤差に悪影響を及ぼす勾配の安定化を引き起こす。本稿では,訓練されたモデルにおけるエラーと実際のトレーニング実行時のトレードオフを解析し,非同期手法によって提供される高速化の理論的特徴について述べる。
論文参考訳（メタデータ） (2020-03-23T23:27:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。