論文の概要: Scheduled Restart Momentum for Accelerated Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2002.10583v2
- Date: Sun, 26 Apr 2020 11:55:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 02:36:20.092397
- Title: Scheduled Restart Momentum for Accelerated Stochastic Gradient Descent
- Title(参考訳): 確率勾配の高速化のためのスケジューリング再起動モーメント
- Authors: Bao Wang, Tan M. Nguyen, Andrea L. Bertozzi, Richard G. Baraniuk,
Stanley J. Osher
- Abstract要約: 我々は、ディープニューラルネットワーク(DNN)をトレーニングするための新しいNAGスタイルのスキームを提案する。
SRSGDは、NAGの運動量の増加によってSGDの定数運動量を置き換えるが、スケジュールに従って運動量を0にリセットすることで繰り返しを安定化させる。
CIFARとImageNetの両方で、SRSGDはSGDベースラインと比較して、トレーニングのエポックを著しく少なくして、類似またはそれ以上のエラー率に達する。
- 参考スコア(独自算出の注目度): 32.40217829362088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent (SGD) with constant momentum and its variants
such as Adam are the optimization algorithms of choice for training deep neural
networks (DNNs). Since DNN training is incredibly computationally expensive,
there is great interest in speeding up the convergence. Nesterov accelerated
gradient (NAG) improves the convergence rate of gradient descent (GD) for
convex optimization using a specially designed momentum; however, it
accumulates error when an inexact gradient is used (such as in SGD), slowing
convergence at best and diverging at worst. In this paper, we propose Scheduled
Restart SGD (SRSGD), a new NAG-style scheme for training DNNs. SRSGD replaces
the constant momentum in SGD by the increasing momentum in NAG but stabilizes
the iterations by resetting the momentum to zero according to a schedule. Using
a variety of models and benchmarks for image classification, we demonstrate
that, in training DNNs, SRSGD significantly improves convergence and
generalization; for instance in training ResNet200 for ImageNet classification,
SRSGD achieves an error rate of 20.93% vs. the benchmark of 22.13%. These
improvements become more significant as the network grows deeper. Furthermore,
on both CIFAR and ImageNet, SRSGD reaches similar or even better error rates
with significantly fewer training epochs compared to the SGD baseline.
- Abstract(参考訳): 一定の運動量を持つ確率勾配降下(SGD)とその変種であるAdamは、ディープニューラルネットワーク(DNN)を訓練するための最適化アルゴリズムである。
DNNトレーニングは非常に高価なので、収束のスピードアップに大きな関心がある。
ネステロフ加速勾配(nag)は、特別に設計された運動量を用いて凸最適化のための勾配降下(gd)の収束率を改善するが、不正確な勾配(sgdなど)を使用すると誤差を蓄積し、最も収束が遅くなり、最悪に分岐する。
本稿では,DNNのトレーニングのための新しいNAGスタイルスキームであるSchduled Restart SGD(SRSGD)を提案する。
SRSGDはNAGの運動量の増加によってSGDの運動量を置き換えるが、スケジュールに従って運動量を0にリセットすることで繰り返しを安定化させる。
例えば、画像分類のためのResNet200のトレーニングでは、SRSGDは22.13%のベンチマークに対して20.93%のエラー率を達成する。
ネットワークが深まるにつれて、これらの改善はより重要になる。
さらに、CIFARとImageNetの両方で、SRSGDはSGDベースラインと比較して、トレーニングのエポックが大幅に少なく、類似またはさらに良いエラー率に達する。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Membrane Potential Distribution Adjustment and Parametric Surrogate
Gradient in Spiking Neural Networks [3.485537704990941]
この問題を回避し、SNNをゼロから訓練するために、SG戦略を調査し、適用した。
パラメトリックサロゲート勾配(PSG)法を提案し,SGを反復的に更新し,最終的に最適なサロゲート勾配パラメータを決定する。
実験結果から,提案手法は時間によるバックプロパゲーション(BPTT)アルゴリズムと容易に統合可能であることが示された。
論文 参考訳(メタデータ) (2023-04-26T05:02:41Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Online Training Through Time for Spiking Neural Networks [66.7744060103562]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。
近年のトレーニング手法の進歩により、レイテンシの低い大規模タスクにおいて、ディープSNNを成功させることができた。
本稿では,BPTT から派生した SNN の時間的学習(OTTT)によるオンライントレーニングを提案する。
論文 参考訳(メタデータ) (2022-10-09T07:47:56Z) - Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep
Models [158.19276683455254]
アダプティブ勾配アルゴリズムは、重ボール加速の移動平均アイデアを借用し、勾配の第1次モーメントを正確に推定し、収束を加速する。
ネステロフ加速は、理論上はボール加速よりも早く収束し、多くの経験的ケースでも収束する。
本稿では,計算勾配の余分な計算とメモリオーバーヘッドを回避するため,Nesterov運動量推定法(NME)を提案する。
Adan は視覚変換器 (ViT と CNN) で対応する SoTA を上回り,多くの人気ネットワークに対して新たな SoTA を設定する。
論文 参考訳(メタデータ) (2022-08-13T16:04:39Z) - Training High-Performance Low-Latency Spiking Neural Networks by
Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。
非分化性のため、SNNを効率的に訓練することは困難である。
本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文 参考訳(メタデータ) (2022-05-01T12:44:49Z) - Temporal Efficient Training of Spiking Neural Network via Gradient
Re-weighting [29.685909045226847]
脳にインスパイアされたスパイクニューロンネットワーク(SNN)は、事象駆動的でエネルギー効率のよい特徴から、広く研究の関心を集めている。
シュロゲート勾配による現在の直接訓練手法は、一般化性に乏しいSNNに結果をもたらす。
SGによる勾配降下時の運動量の減少を補うための時間的効率訓練(TET)手法を導入する。
論文 参考訳(メタデータ) (2022-02-24T08:02:37Z) - Guided parallelized stochastic gradient descent for delay compensation [0.0]
勾配降下(sgd)アルゴリズムとそのバリエーションは、ニューラルネットワークモデルの最適化に効果的に使われている。
ビッグデータとディープラーニングの急速な成長により、SGDはエラー関数の逐次最適化の自然な振る舞いのために、もはや最も適した選択ではありません。
これにより、非同期SGD(ASGD)や同期SGD(SSGD)といった並列SGDアルゴリズムが開発され、ディープニューラルネットワークのトレーニングが行われている。
論文 参考訳(メタデータ) (2021-01-17T23:12:40Z) - Stochastic Gradient Descent with Nonlinear Conjugate Gradient-Style
Adaptive Momentum [9.843647947055745]
ディープラーニングの実践では、運動量はよく校正された定数によって重み付けされる。
本稿では,DNNのトレーニング改善のための新しい強調モーメントを提案する。
論文 参考訳(メタデータ) (2020-12-03T18:59:43Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - OD-SGD: One-step Delay Stochastic Gradient Descent for Distributed
Training [5.888925582071453]
本研究では,1段階遅延SGD(OD-SGD)と呼ばれる新しい技術を提案する。
提案アルゴリズムは,MNIST, CIFAR-10, ImageNetのデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-05-14T05:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。