論文の概要: Ordered Momentum for Asynchronous SGD
- arxiv url: http://arxiv.org/abs/2407.19234v2
- Date: Fri, 08 Nov 2024 05:34:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:52:07.972204
- Title: Ordered Momentum for Asynchronous SGD
- Title(参考訳): 非同期SGDのための順序付きモーメント
- Authors: Chang-Wei Shi, Yi-Rui Yang, Wu-Jun Li,
- Abstract要約: 本稿では,ASGDのための運動量(OrMo)と呼ばれる新しい手法を提案する。
OrMo では、運動量は指数に基づいて順に勾配を整理することで ASGD に組み込まれる。
実験結果から,OrMoはASGDに比べてコンバージェンス性能がよいことが示された。
- 参考スコア(独自算出の注目度): 12.810976838406193
- License:
- Abstract: Distributed learning is essential for training large-scale deep models. Asynchronous SGD (ASGD) and its variants are commonly used distributed learning methods, particularly in scenarios where the computing capabilities of workers in the cluster are heterogeneous. Momentum has been acknowledged for its benefits in both optimization and generalization in deep model training. However, existing works have found that naively incorporating momentum into ASGD can impede the convergence. In this paper, we propose a novel method called ordered momentum (OrMo) for ASGD. In OrMo, momentum is incorporated into ASGD by organizing the gradients in order based on their iteration indexes. We theoretically prove the convergence of OrMo with both constant and delay-adaptive learning rates for non-convex problems. To the best of our knowledge, this is the first work to establish the convergence analysis of ASGD with momentum without dependence on the maximum delay. Empirical results demonstrate that OrMo can achieve better convergence performance compared with ASGD and other asynchronous methods with momentum.
- Abstract(参考訳): 大規模深層モデルのトレーニングには分散学習が不可欠だ。
非同期SGD(ASGD)とその変種は、特にクラスタ内のワーカの計算能力が不均一な場合において、分散学習法として一般的に使用される。
Momentumは、ディープモデルトレーニングにおける最適化と一般化の両面での利点が認められている。
しかし、既存の研究により、ASGDに運動量を取り込むことで収束を妨げることが判明している。
本稿では,ASGDのための順序運動量(OrMo)と呼ばれる新しい手法を提案する。
OrMo では、モーメントを ASGD に組み入れ、それらの反復指数に基づいて順に勾配を整理する。
理論的には,OrMoの収束を,非凸問題に対する定性および遅延適応学習率の両方で証明する。
我々の知る限りでは、これは最大遅延に依存することなく運動量を持つASGDの収束解析を確立する最初の研究である。
実験の結果, モーメントを持つASGDや他の非同期手法と比較して, OrMo は収束性能が向上することが示された。
関連論文リスト
- Adversarial Schrödinger Bridge Matching [66.39774923893103]
反復マルコフフィッティング(IMF)手順は、マルコフ過程の相互射影と相互射影を交互に交互に行う。
本稿では、プロセスの学習を離散時間でほんの少しの遷移確率の学習に置き換える新しい離散時間IMF(D-IMF)手順を提案する。
D-IMFの手続きは、数百ではなく数世代のステップで、IMFと同じ品質の未完成のドメイン翻訳を提供できることを示す。
論文 参考訳(メタデータ) (2024-05-23T11:29:33Z) - ClusterDDPM: An EM clustering framework with Denoising Diffusion
Probabilistic Models [9.91610928326645]
拡散確率モデル(DDPM)は、新しい、そして有望な生成モデルのクラスを表す。
本研究では,DDPMを用いたクラスタリングのための革新的予測最大化(EM)フレームワークを提案する。
Mステップでは、条件付きDDPMを用いてクラスタリングに親しみやすい潜在表現を学習し、潜在表現の分布をガウスの先行表現の混合と整合させることに重点を置いている。
論文 参考訳(メタデータ) (2023-12-13T10:04:06Z) - Fast Diffusion Model [122.36693015093041]
拡散モデル(DM)は、複雑なデータ分布を捉える能力を持つ様々な分野に採用されている。
本稿では,DM最適化の観点から,高速拡散モデル (FDM) を提案する。
論文 参考訳(メタデータ) (2023-06-12T09:38:04Z) - Hierarchical Federated Learning with Momentum Acceleration in Multi-Tier
Networks [38.04641907268331]
モーメント・アクセラレーションを用いた階層型フェデレーション学習(HierMo)を提案する。
HierMoは、トレーニングアクセラレーションにモーメントを適用する3階層のワーカエッジクラウドフェデレーション学習アルゴリズムである。
論文 参考訳(メタデータ) (2022-10-26T08:35:37Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Positive-Negative Momentum: Manipulating Stochastic Gradient Noise to
Improve Generalization [89.7882166459412]
勾配雑音(SGN)は、ディープラーニングの暗黙の正規化として機能する。
深層学習を改善するためにランダムノイズを注入してSGNを人工的にシミュレートしようとした作品もある。
低計算コストでSGNをシミュレーションし、学習率やバッチサイズを変更することなく、PNM(Positive-Negative Momentum)アプローチを提案する。
論文 参考訳(メタデータ) (2021-03-31T16:08:06Z) - Imitation with Neural Density Models [98.34503611309256]
本稿では,Imitation Occupancy Entropy Reinforcement Learning (RL) を報奨として,専門家の占有率の密度推定によるImitation Learning (IL) の新しい枠組みを提案する。
提案手法は,専門家の占有率と模倣者の占有率の逆Kulback-Leibler偏差を確実に低くする非逆モデル自由RLの目的を最大化する。
論文 参考訳(メタデータ) (2020-10-19T19:38:36Z) - Momentum via Primal Averaging: Theoretical Insights and Learning Rate
Schedules for Non-Convex Optimization [10.660480034605241]
ディープニューラルネットワークのような非トレーニングモデルのために、機械学習コミュニティ内で広く使用されている。
本研究では、SGDSPA(SGDSPA)形式のSGD等価な書き直しを利用して、運動量を持つSGDのリアプノフ解析を開発する。
論文 参考訳(メタデータ) (2020-10-01T13:46:32Z) - Joint Stochastic Approximation and Its Application to Learning Discrete
Latent Variable Models [19.07718284287928]
推定モデルに対する信頼度勾配を得るのが困難であることや、間接的にターゲットのログを最適化することの欠点を優雅に解決できることが示される。
本稿では,対象の対数類似度を直接最大化し,後部モデルと推論モデルとの包摂的ばらつきを同時に最小化することを提案する。
結果の学習アルゴリズムは、ジョイントSA(JSA)と呼ばれる。
論文 参考訳(メタデータ) (2020-05-28T13:50:08Z) - Elastic Consistency: A General Consistency Model for Distributed
Stochastic Gradient Descent [28.006781039853575]
近年の機械学習の進歩を支える重要な要素は、大規模な分散メモリ環境で機械学習モデルをトレーニングする能力である。
本稿では,大規模機械学習モデルの学習に使用される一般収束手法を提案する。
我々のフレームワークは弾性弾性境界と呼ばれ、様々な分散SGD法に対する収束境界を導出することができる。
論文 参考訳(メタデータ) (2020-01-16T16:10:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。