論文の概要: Bringing Order to Asynchronous SGD: Towards Optimality under Data-Dependent Delays with Momentum
- arxiv url: http://arxiv.org/abs/2605.02043v1
- Date: Sun, 03 May 2026 20:24:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.056864
- Title: Bringing Order to Asynchronous SGD: Towards Optimality under Data-Dependent Delays with Momentum
- Title(参考訳): 非同期SGDに秩序をもたらす - モメンタムによるデータ依存遅延下での最適性を目指して
- Authors: Tehila Dahan, Roie Reshef, Sharon Goldstein, Kfir Y. Levy,
- Abstract要約: 非同期分散勾配トレーニング(SGD)は、スケーラブルな分散トレーニングを可能にするが、安定性に悩まされる。
遅延依存学習率や安定度認識トレーニングといった既存の緩和戦略は、通常遅延勾配を廃止または廃止する。
本稿では,安定度を緩和しながら遅延勾配から情報を保存するために,モーメントに基づく非同期フレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.032739611868685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Asynchronous stochastic gradient descent (SGD) enables scalable distributed training but suffers from gradient staleness. Existing mitigation strategies, such as delay-adaptive learning rates and staleness-aware filtering, typically attenuate or discard delayed gradients, introducing systematic bias: updates from simpler or faster-to-process samples are overrepresented, while gradients from more complex samples are delayed or suppressed. In contrast, prior approaches to data-dependent delays rely on a Lipschitz assumption that yields suboptimal rates or leave the smooth, convex case unaddressed. We propose a momentum-based asynchronous framework designed to preserve information from delayed gradients while mitigating the effects of staleness. We establish the first optimal convergence rates for data-dependent delays in both convex and non-convex smooth setups, providing a new result for asynchronous optimization under standard assumptions. Additionally, we derive robust learning-rate schedules that simplify hyperparameter tuning in practice.
- Abstract(参考訳): 非同期確率勾配降下(SGD)は、スケーラブルな分散トレーニングを可能にするが、勾配安定性に悩まされる。
遅延適応学習率(英語版)や安定化対応フィルタリング(英語版)のような既存の緩和戦略は、一般的に遅延勾配を減衰または破棄し、体系的バイアスを導入する:より単純または高速なサンプルからの更新は過剰に表現され、より複雑なサンプルからの勾配は遅延または抑制される。
対照的に、データ依存の遅延に対する事前のアプローチは、最適以下の率を得るというリプシッツの仮定に依存している。
本稿では,定常性の影響を緩和しつつ,遅延勾配から情報を保存するためのモーメントベースの非同期フレームワークを提案する。
我々は、凸および非凸スムーズなセットアップにおいて、データ依存遅延に対する最初の最適収束率を確立し、標準仮定の下で非同期最適化のための新しい結果を提供する。
さらに,実際のハイパーパラメータチューニングを簡略化する,堅牢な学習速度スケジュールを導出する。
関連論文リスト
- CurvZO: Adaptive Curvature-Guided Sparse Zeroth-Order Optimization for Efficient LLM Fine-Tuning [15.930478833291827]
バックプロパゲーションを備えた微調整の大型言語モデル(LLM)は高い性能を実現するが、かなりのメモリオーバーヘッドを引き起こす。
本稿では、スカラーZOフィードバックからオンラインの曲率信号を追跡するCurvZOを提案する。
CurvZOは微調整性能を継続的に改善し,ZOベースラインでのトレーニング時間を短縮することを示す。
論文 参考訳(メタデータ) (2026-03-23T09:13:45Z) - Mitigating Staleness in Asynchronous Pipeline Parallelism via Basis Rotation [6.710608163117798]
非同期パイプライン並列処理は、同期実行に固有のパイプラインバブルを排除し、ハードウェア利用を最大化する。
この効率向上は勾配安定度によって損なわれ、遅延勾配による即時モデル更新は最適化プロセスにノイズをもたらす。
本稿では,アライメント問題を効果的に緩和し,非同期設定における収束を著しく促進することを示す,ベースローテーションの利用を提案する。
論文 参考訳(メタデータ) (2026-02-03T13:31:51Z) - Adaptive Deadline and Batch Layered Synchronized Federated Learning [66.93447103966439]
フェデレートラーニング(FL)は、データプライバシを保持しながら、分散エッジデバイス間で協調的なモデルトレーニングを可能にする。
我々は,レイヤワイドアグリゲーションのために,ラウンド単位の期限とユーザ固有のバッチサイズを共同で最適化する新しいフレームワークADEL-FLを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:59:18Z) - Nesterov Method for Asynchronous Pipeline Parallel Optimization [59.79227116582264]
パイプライン並列処理における非同期最適化のために,Nesterov Accelerated Gradient (NAG) の変種を導入する。
具体的には、NAGのルックアヘッドステップを変更して、勾配の安定性を効果的に解決する。
我々は、勾配の固定遅延の存在下で、我々のアプローチがサブ線形速度で収束することを理論的に証明する。
論文 参考訳(メタデータ) (2025-05-02T08:23:29Z) - Optimizing Asynchronous Federated Learning: A Delicate Trade-Off Between Model-Parameter Staleness and Update Frequency [2.1990852305468533]
同期フェデレーションラーニング(FL)は、ストラグラー効果によりクライアント数に悪影響を及ぼす。
本研究では,非同期FLアルゴリズムにおける設計選択の影響をよりよく理解するために,モデリングと解析に頼っている。
特に,モデルパラメータの安定化を回避し,勾配推定誤差の最小化という,非同期FLの最適化のための基本的なトレードオフを特徴付ける。
論文 参考訳(メタデータ) (2025-02-12T08:38:13Z) - Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。
我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文 参考訳(メタデータ) (2024-02-19T03:08:02Z) - Stochastic Optimization with Laggard Data Pipelines [65.20044914532221]
共通最適化手法の「データ抽出」拡張は同期手法よりも優れた性能を示すことを示す。
具体的には、ミニバッチによる凸最適化において、データエコーは、最適統計率を維持しながら収束率の曲率に支配される部分の高速化をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-26T14:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。