論文の概要: Improved Convergence in Parameter-Agnostic Error Feedback through Momentum
- arxiv url: http://arxiv.org/abs/2511.14501v1
- Date: Tue, 18 Nov 2025 13:47:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.139783
- Title: Improved Convergence in Parameter-Agnostic Error Feedback through Momentum
- Title(参考訳): モーメントによるパラメータ非依存誤差フィードバックの収束性の改善
- Authors: Abdurakhmon Sadiev, Yury Demidovich, Igor Sokolov, Grigory Malinovsky, Sarit Khirirat, Peter Richtárik,
- Abstract要約: 本研究では、EFと正規化更新、様々な運動量変動、パラメータに依存しない時変ステップサイズを組み合わせた正規化エラーフィードバックアルゴリズムについて検討する。
我々の結果は、ステップサイズと小さなミニバッチの減少に繋がる。
- 参考スコア(独自算出の注目度): 49.163769734936295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Communication compression is essential for scalable distributed training of modern machine learning models, but it often degrades convergence due to the noise it introduces. Error Feedback (EF) mechanisms are widely adopted to mitigate this issue of distributed compression algorithms. Despite their popularity and training efficiency, existing distributed EF algorithms often require prior knowledge of problem parameters (e.g., smoothness constants) to fine-tune stepsizes. This limits their practical applicability especially in large-scale neural network training. In this paper, we study normalized error feedback algorithms that combine EF with normalized updates, various momentum variants, and parameter-agnostic, time-varying stepsizes, thus eliminating the need for problem-dependent tuning. We analyze the convergence of these algorithms for minimizing smooth functions, and establish parameter-agnostic complexity bounds that are close to the best-known bounds with carefully-tuned problem-dependent stepsizes. Specifically, we show that normalized EF21 achieve the convergence rate of near ${O}(1/T^{1/4})$ for Polyak's heavy-ball momentum, ${O}(1/T^{2/7})$ for Iterative Gradient Transport (IGT), and ${O}(1/T^{1/3})$ for STORM and Hessian-corrected momentum. Our results hold with decreasing stepsizes and small mini-batches. Finally, our empirical experiments confirm our theoretical insights.
- Abstract(参考訳): コミュニケーション圧縮は、現代の機械学習モデルのスケーラブルな分散トレーニングには不可欠だが、それが導入するノイズのためにコンバージェンスを低下させることが多い。
分散圧縮アルゴリズムのこの問題を軽減するために、エラーフィードバック(EF)機構が広く採用されている。
その人気とトレーニングの効率にもかかわらず、既存の分散EFアルゴリズムは、ステップサイズを微調整するために問題パラメータ(例えば、滑らかさ定数)の事前知識を必要とすることが多い。
これにより、特に大規模ニューラルネットワークトレーニングにおける実用性が制限される。
本稿では, EFと正規化更新, 様々なモーメント変動, パラメータに依存しない時変ステップサイズを組み合わせた正規化誤差フィードバックアルゴリズムについて検討し, 問題依存型チューニングの必要性を排除した。
滑らかな関数を最小化するためのこれらのアルゴリズムの収束を解析し、パラメータに依存しない複雑性境界を確立する。
具体的には、正規化されたEF21がポリアックの重い球運動量に対して${O}(1/T^{1/4})$、反復勾配輸送(IGT)のために${O}(1/T^{2/7})$、STORMとヘッセン補正運動量に対して${O}(1/T^{1/3})$の収束率を達成することを示す。
我々の結果は、ステップサイズと小さなミニバッチの減少に繋がる。
最後に、我々の実証実験は、我々の理論的洞察を裏付けるものである。
関連論文リスト
- Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T10:19:27Z) - From Gradient Clipping to Normalization for Heavy Tailed SGD [19.369399536643773]
最近の実証的な証拠は、機械学習の応用が重尾ノイズを伴い、実際に有界分散の標準的な仮定に挑戦していることを示している。
本稿では, 勾配依存型雑音収束問題において, テール雑音下での厳密性を実現することができることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:01Z) - Momentum Provably Improves Error Feedback! [54.93799845077906]
未処理の場合、圧縮による誤差は指数的トレーニングの振る舞いを伝播させる。
EF21-SGDMは、従来のエラーフィードバックアルゴリズムの通信とサンプルの複雑さを改善している。
論文 参考訳(メタデータ) (2023-05-24T13:52:02Z) - Temporal Difference Learning with Compressed Updates: Error-Feedback meets Reinforcement Learning [47.904127007515925]
本稿では,従来の時間差学習アルゴリズムの変種について検討する。
我々は、圧縮されたTDアルゴリズムと、最適化に広く用いられているエラーフィードバック機構が組み合わさって、漸近的でない近似を保証することを証明した。
特に、これらは一般圧縮演算子と線形関数近似とマルコフサンプリングを併用したタンデムの誤差フィードバックを考慮に入れたRLにおける最初の有限時間結果である。
論文 参考訳(メタデータ) (2023-01-03T04:09:38Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。