論文の概要: DecentLaM: Decentralized Momentum SGD for Large-batch Deep Training
- arxiv url: http://arxiv.org/abs/2104.11981v1
- Date: Sat, 24 Apr 2021 16:21:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 14:19:44.351014
- Title: DecentLaM: Decentralized Momentum SGD for Large-batch Deep Training
- Title(参考訳): DecentLaM:大規模深層学習のための分散モーメントSGD
- Authors: Kun Yuan, Yiming Chen, Xinmeng Huang, Yingya Zhang, Pan Pan, Yinghui
Xu, Wotao Yin
- Abstract要約: 分散モーメントSGD(DmSGD)は並列モーメントSGDよりも通信効率が高く、すべてのコンピューティングノードでグローバル平均が発生します。
DeLacent大バッチモーメント性能モデルを提案します。
- 参考スコア(独自算出の注目度): 30.574484395380043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scale of deep learning nowadays calls for efficient distributed training
algorithms. Decentralized momentum SGD (DmSGD), in which each node averages
only with its neighbors, is more communication efficient than vanilla Parallel
momentum SGD that incurs global average across all computing nodes. On the
other hand, the large-batch training has been demonstrated critical to achieve
runtime speedup. This motivates us to investigate how DmSGD performs in the
large-batch scenario.
In this work, we find the momentum term can amplify the inconsistency bias in
DmSGD. Such bias becomes more evident as batch-size grows large and hence
results in severe performance degradation. We next propose DecentLaM, a novel
decentralized large-batch momentum SGD to remove the momentum-incurred bias.
The convergence rate for both non-convex and strongly-convex scenarios is
established. Our theoretical results justify the superiority of DecentLaM to
DmSGD especially in the large-batch scenario. Experimental results on a variety
of computer vision tasks and models demonstrate that DecentLaM promises both
efficient and high-quality training.
- Abstract(参考訳): ディープラーニングのスケールでは、効率的な分散トレーニングアルゴリズムが求められている。
分散運動量 SGD (DmSGD) は、各ノードが隣り合うだけで平均となるが、全ての計算ノードで世界平均を発生させるバニラ並列運動量 SGD よりも通信効率が高い。
一方、大規模バッチトレーニングは実行時のスピードアップを達成するために重要であることが証明されている。
これはDmSGDが大規模バッチシナリオでどのように機能するかを調査する動機となります。
この研究において、運動量項はDmSGDの不整合バイアスを増幅することができる。
このようなバイアスは、バッチサイズが大きくなり、結果としてパフォーマンスが著しく低下するにつれてより明確になる。
次に,新しい分散型大バッチ運動量SGDであるDecentLaMを提案する。
非凸シナリオと強凸シナリオの収束速度が確立される。
我々の理論的結果は,特に大規模バッチシナリオにおけるDmSGDに対するDecentLaMの優位性を正当化するものである。
様々なコンピュータビジョンタスクとモデルの実験結果は、DecentLaMが効率的かつ高品質なトレーニングを約束していることを示している。
関連論文リスト
- When and Why Momentum Accelerates SGD:An Empirical Study [76.2666927020119]
本研究では,運動量を有する勾配降下(SGD)の性能について検討する。
運動量加速度は,更新方向に沿った方向ヘッセンの急激な跳躍を示す強調シャープニングと密接に関連していることがわかった。
モーメントは、急激な研削の発生を防止または延期することにより、SGDMの性能を向上させる。
論文 参考訳(メタデータ) (2023-06-15T09:54:21Z) - Solving Large-scale Spatial Problems with Convolutional Neural Networks [88.31876586547848]
大規模空間問題に対する学習効率を向上させるために移動学習を用いる。
畳み込みニューラルネットワーク (CNN) は, 信号の小さな窓で訓練できるが, 性能劣化の少ない任意の大信号で評価できる。
論文 参考訳(メタデータ) (2023-06-14T01:24:42Z) - Fast Diffusion Model [122.36693015093041]
拡散モデル(DM)は、複雑なデータ分布を捉える能力を持つ様々な分野に採用されている。
本稿では,DM最適化の観点から,高速拡散モデル (FDM) を提案する。
論文 参考訳(メタデータ) (2023-06-12T09:38:04Z) - Decentralized SGD and Average-direction SAM are Asymptotically
Equivalent [101.37242096601315]
分散勾配降下(D-SGD)は、中央サーバを制御せずに大規模デバイス上で協調学習を可能にする。
既存の理論では、分散化は必ず一般化される。
論文 参考訳(メタデータ) (2023-06-05T14:19:52Z) - Scalable Optimal Margin Distribution Machine [50.281535710689795]
ODM(Optimal margin Distribution Machine)は、新しいマージン理論に根ざした新しい統計学習フレームワークである。
本稿では,従来のODMトレーニング手法に比べて10倍近い高速化を実現するスケーラブルなODMを提案する。
論文 参考訳(メタデータ) (2023-05-08T16:34:04Z) - Contrastive Weight Regularization for Large Minibatch SGD [8.927483136015283]
我々は新しい正規化手法、すなわち特異正規化(DReg)を導入する。
DRegはディープネットワークの特定のレイヤを複製し、両方のレイヤのパラメータを多様にすることを奨励する。
我々は,大バッチSGDを用いたDRegによるニューラルネットワークの最適化が,収束の著しい向上と性能向上を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-11-17T22:07:38Z) - Stochastic Normalized Gradient Descent with Momentum for Large-Batch Training [9.964630991617764]
勾配降下(SGD)とその変種は機械学習における支配的最適化手法である。
本稿では,大規模バッチ学習のための運動量付き正規化勾配降下法(SNGM)を提案する。
論文 参考訳(メタデータ) (2020-07-28T04:34:43Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z) - SQuARM-SGD: Communication-Efficient Momentum SGD for Decentralized
Optimization [22.190763887903085]
本稿では,ネットワーク上での機械学習モデルの分散学習のための通信効率向上アルゴリズムであるSQuARM-SGDを提案する。
SQuARM-SGDの収束速度は,バニラSGDの収束率と運動量更新率に一致した。
我々は、SQuARM-SGDのモーメント更新を含めることで、モーメント更新を考慮しない現在の最先端技術よりも優れたテスト性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2020-05-13T02:11:14Z) - Breaking (Global) Barriers in Parallel Stochastic Optimization with
Wait-Avoiding Group Averaging [34.55741812648229]
本稿では、ウェイトアビジングサブグループであるWAGMA-SGDについて述べる。
ImageNet上でResNet-50をトレーニングし、機械翻訳用のトランスフォーマー、大規模ナビゲーションのための深い強化学習を行う。
最先端の分散SGDと比較すると、WAGMA-SGDはトレーニングのスループットを大幅に改善する。
論文 参考訳(メタデータ) (2020-04-30T22:11:53Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。