論文の概要: Ordered Momentum for Asynchronous SGD
- arxiv url: http://arxiv.org/abs/2407.19234v3
- Date: Thu, 23 Jan 2025 17:04:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:55:37.994716
- Title: Ordered Momentum for Asynchronous SGD
- Title(参考訳): 非同期SGDのための順序付きモーメント
- Authors: Chang-Wei Shi, Yi-Rui Yang, Wu-Jun Li,
- Abstract要約: 本稿では,ASGDのための運動量(OrMo)と呼ばれる新しい手法を提案する。
OrMo では、運動量は指数に基づいて順に勾配を整理することで ASGD に組み込まれる。
実験結果から,OrMoはASGDに比べてコンバージェンス性能がよいことが示された。
- 参考スコア(独自算出の注目度): 12.810976838406193
- License:
- Abstract: Distributed learning is essential for training large-scale deep models. Asynchronous SGD (ASGD) and its variants are commonly used distributed learning methods, particularly in scenarios where the computing capabilities of workers in the cluster are heterogeneous. Momentum has been acknowledged for its benefits in both optimization and generalization in deep model training. However, existing works have found that naively incorporating momentum into ASGD can impede the convergence. In this paper, we propose a novel method called ordered momentum (OrMo) for ASGD. In OrMo, momentum is incorporated into ASGD by organizing the gradients in order based on their iteration indexes. We theoretically prove the convergence of OrMo with both constant and delay-adaptive learning rates for non-convex problems. To the best of our knowledge, this is the first work to establish the convergence analysis of ASGD with momentum without dependence on the maximum delay. Empirical results demonstrate that OrMo can achieve better convergence performance compared with ASGD and other asynchronous methods with momentum.
- Abstract(参考訳): 大規模深層モデルのトレーニングには分散学習が不可欠だ。
非同期SGD(ASGD)とその変種は、特にクラスタ内のワーカの計算能力が不均一な場合において、分散学習法として一般的に使用される。
Momentumは、ディープモデルトレーニングにおける最適化と一般化の両面での利点が認められている。
しかし、既存の研究により、ASGDに運動量を取り込むことで収束を妨げることが判明している。
本稿では,ASGDのための順序運動量(OrMo)と呼ばれる新しい手法を提案する。
OrMo では、モーメントを ASGD に組み入れ、それらの反復指数に基づいて順に勾配を整理する。
理論的には,OrMoの収束を,非凸問題に対する定性および遅延適応学習率の両方で証明する。
我々の知る限りでは、これは最大遅延に依存することなく運動量を持つASGDの収束解析を確立する最初の研究である。
実験の結果, モーメントを持つASGDや他の非同期手法と比較して, OrMo は収束性能が向上することが示された。
関連論文リスト
- Stragglers-Aware Low-Latency Synchronous Federated Learning via Layer-Wise Model Updates [71.81037644563217]
同期フェデレーションラーニング(FL)は、協調エッジラーニングの一般的なパラダイムである。
一部のデバイスは計算資源が限られており、様々な可用性があるため、FLレイテンシはストラグラーに非常に敏感である。
本稿では,NNの最適化手法をバックプロパゲーションにより活用し,グローバルモデルを階層的に更新するストラグラー対応層対応学習(SALF)を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:14:36Z) - ZO-AdaMU Optimizer: Adapting Perturbation by the Momentum and
Uncertainty in Zeroth-order Optimization [18.02643194439027]
本研究は、ZO-AdaMUを用いて、その近似における運動量による模擬摂動に適応することを提案する。
我々の収束解析と実験は、ZO-SGDの収束安定性と速度を改善するためのより良い方法であることを証明している。
論文 参考訳(メタデータ) (2023-12-23T07:46:31Z) - Fast Diffusion Model [122.36693015093041]
拡散モデル(DM)は、複雑なデータ分布を捉える能力を持つ様々な分野に採用されている。
本稿では,DM最適化の観点から,高速拡散モデル (FDM) を提案する。
論文 参考訳(メタデータ) (2023-06-12T09:38:04Z) - A Unified Momentum-based Paradigm of Decentralized SGD for Non-Convex
Models and Heterogeneous Data [0.261072980439312]
非汎用目的に対する収束保証を提供するU.MP,D-MP,GT-Dという統一パラダイムを提案する。
理論的には、これらの非MPアルゴリズムに対して収束解析目的を2つのアプローチで提供する。
論文 参考訳(メタデータ) (2023-03-01T02:13:22Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Positive-Negative Momentum: Manipulating Stochastic Gradient Noise to
Improve Generalization [89.7882166459412]
勾配雑音(SGN)は、ディープラーニングの暗黙の正規化として機能する。
深層学習を改善するためにランダムノイズを注入してSGNを人工的にシミュレートしようとした作品もある。
低計算コストでSGNをシミュレーションし、学習率やバッチサイズを変更することなく、PNM(Positive-Negative Momentum)アプローチを提案する。
論文 参考訳(メタデータ) (2021-03-31T16:08:06Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Momentum via Primal Averaging: Theoretical Insights and Learning Rate
Schedules for Non-Convex Optimization [10.660480034605241]
ディープニューラルネットワークのような非トレーニングモデルのために、機械学習コミュニティ内で広く使用されている。
本研究では、SGDSPA(SGDSPA)形式のSGD等価な書き直しを利用して、運動量を持つSGDのリアプノフ解析を開発する。
論文 参考訳(メタデータ) (2020-10-01T13:46:32Z) - Joint Stochastic Approximation and Its Application to Learning Discrete
Latent Variable Models [19.07718284287928]
推定モデルに対する信頼度勾配を得るのが困難であることや、間接的にターゲットのログを最適化することの欠点を優雅に解決できることが示される。
本稿では,対象の対数類似度を直接最大化し,後部モデルと推論モデルとの包摂的ばらつきを同時に最小化することを提案する。
結果の学習アルゴリズムは、ジョイントSA(JSA)と呼ばれる。
論文 参考訳(メタデータ) (2020-05-28T13:50:08Z) - Elastic Consistency: A General Consistency Model for Distributed
Stochastic Gradient Descent [28.006781039853575]
近年の機械学習の進歩を支える重要な要素は、大規模な分散メモリ環境で機械学習モデルをトレーニングする能力である。
本稿では,大規模機械学習モデルの学習に使用される一般収束手法を提案する。
我々のフレームワークは弾性弾性境界と呼ばれ、様々な分散SGD法に対する収束境界を導出することができる。
論文 参考訳(メタデータ) (2020-01-16T16:10:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。