論文の概要: Stochastic Gradient Descent with Nonlinear Conjugate Gradient-Style
Adaptive Momentum
- arxiv url: http://arxiv.org/abs/2012.02188v1
- Date: Thu, 3 Dec 2020 18:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 18:06:24.878909
- Title: Stochastic Gradient Descent with Nonlinear Conjugate Gradient-Style
Adaptive Momentum
- Title(参考訳): 非線形共役勾配型適応運動量を用いた確率勾配降下
- Authors: Bao Wang, Qiang Ye
- Abstract要約: ディープラーニングの実践では、運動量はよく校正された定数によって重み付けされる。
本稿では,DNNのトレーニング改善のための新しい強調モーメントを提案する。
- 参考スコア(独自算出の注目度): 9.843647947055745
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Momentum plays a crucial role in stochastic gradient-based optimization
algorithms for accelerating or improving training deep neural networks (DNNs).
In deep learning practice, the momentum is usually weighted by a
well-calibrated constant. However, tuning hyperparameters for momentum can be a
significant computational burden. In this paper, we propose a novel
\emph{adaptive momentum} for improving DNNs training; this adaptive momentum,
with no momentum related hyperparameter required, is motivated by the nonlinear
conjugate gradient (NCG) method. Stochastic gradient descent (SGD) with this
new adaptive momentum eliminates the need for the momentum hyperparameter
calibration, allows a significantly larger learning rate, accelerates DNN
training, and improves final accuracy and robustness of the trained DNNs. For
instance, SGD with this adaptive momentum reduces classification errors for
training ResNet110 for CIFAR10 and CIFAR100 from $5.25\%$ to $4.64\%$ and
$23.75\%$ to $20.03\%$, respectively. Furthermore, SGD with the new adaptive
momentum also benefits adversarial training and improves adversarial robustness
of the trained DNNs.
- Abstract(参考訳): Momentumは、ディープニューラルネットワーク(DNN)のトレーニングを加速または改善するための確率勾配に基づく最適化アルゴリズムにおいて重要な役割を果たす。
ディープラーニングの実践では、運動量はよく校正された定数によって重み付けされる。
しかし、運動量に対するハイパーパラメータのチューニングは重要な計算負荷となる。
本稿では、DNNのトレーニングを改善するための新しい「emph{adaptive momentum}」を提案する。この適応運動量は、運動量に関連するハイパーパラメータを必要としないが、非線形共役勾配(NCG)法によって動機付けられる。
新しい適応運動量による確率勾配降下(SGD)は運動量ハイパーパラメータ校正の必要性を排除し、学習率を大幅に向上させ、DNNトレーニングを加速し、訓練されたDNNの最終的な精度と堅牢性を向上させる。
例えば、この適応運動量を持つSGDは、CIFAR10とCIFAR100のResNet110のトレーニングの分類誤差を、それぞれ5.25\%$から4.64\%$、23.75\%$から20.03\%$に下げる。
さらに、新たな適応運動量を持つSGDは、訓練されたDNNの敵対的堅牢性を向上させる。
関連論文リスト
- The Marginal Value of Momentum for Small Learning Rate SGD [20.606430391298815]
モーメントは、勾配雑音のない強い凸条件下での勾配降下の収束を加速することが知られている。
実験により、最適学習率があまり大きくない実践訓練において、運動量には最適化と一般化の両方の利点があることがわかった。
論文 参考訳(メタデータ) (2023-07-27T21:01:26Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - SPIDE: A Purely Spike-based Method for Training Feedback Spiking Neural
Networks [56.35403810762512]
イベントベースの計算を伴うスパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェアにおけるエネルギー効率の高い応用のために、脳にインスパイアされたモデルを約束している。
本研究では,最近提案されたトレーニング手法を拡張した平衡状態(SPIDE)に対するスパイクに基づく暗黙差分法について検討した。
論文 参考訳(メタデータ) (2023-02-01T04:22:59Z) - Flatter, faster: scaling momentum for optimal speedup of SGD [0.0]
ニューラルネットワークのトレーニングにおいて、勾配降下(SGD)とラベルノイズと運動量との相互作用から生じるトレーニングダイナミクスについて検討した。
運動量ハイパーパラメータ1-NISTbeta$を学習率で2/3$にスケーリングすると、一般化を犠牲にすることなく、最大で2/3$のトレーニングが加速することがわかった。
論文 参考訳(メタデータ) (2022-10-28T20:41:48Z) - Online Training Through Time for Spiking Neural Networks [66.7744060103562]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。
近年のトレーニング手法の進歩により、レイテンシの低い大規模タスクにおいて、ディープSNNを成功させることができた。
本稿では,BPTT から派生した SNN の時間的学習(OTTT)によるオンライントレーニングを提案する。
論文 参考訳(メタデータ) (2022-10-09T07:47:56Z) - Temporal Efficient Training of Spiking Neural Network via Gradient
Re-weighting [29.685909045226847]
脳にインスパイアされたスパイクニューロンネットワーク(SNN)は、事象駆動的でエネルギー効率のよい特徴から、広く研究の関心を集めている。
シュロゲート勾配による現在の直接訓練手法は、一般化性に乏しいSNNに結果をもたらす。
SGによる勾配降下時の運動量の減少を補うための時間的効率訓練(TET)手法を導入する。
論文 参考訳(メタデータ) (2022-02-24T08:02:37Z) - Training Deep Neural Networks with Adaptive Momentum Inspired by the
Quadratic Optimization [20.782428252187024]
重球運動量の最適選択に着想を得た新しい適応運動量を提案する。
提案した適応重球運動量は勾配降下(SGD)とアダムを改善することができる。
我々は、画像分類、言語モデリング、機械翻訳を含む幅広い機械学習ベンチマークにおいて、SGDとAdamの効率を新しい適応運動量で検証する。
論文 参考訳(メタデータ) (2021-10-18T07:03:48Z) - Low-Precision Training in Logarithmic Number System using Multiplicative
Weight Update [49.948082497688404]
大規模ディープニューラルネットワーク(DNN)のトレーニングは、現在かなりの量のエネルギーを必要としており、深刻な環境影響をもたらす。
エネルギーコストを削減するための有望なアプローチの1つは、DNNを低精度で表現することである。
対数数システム(LNS)と乗算重み更新訓練法(LNS-Madam)を併用した低精度トレーニングフレームワークを共同で設計する。
論文 参考訳(メタデータ) (2021-06-26T00:32:17Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Scheduled Restart Momentum for Accelerated Stochastic Gradient Descent [32.40217829362088]
我々は、ディープニューラルネットワーク(DNN)をトレーニングするための新しいNAGスタイルのスキームを提案する。
SRSGDは、NAGの運動量の増加によってSGDの定数運動量を置き換えるが、スケジュールに従って運動量を0にリセットすることで繰り返しを安定化させる。
CIFARとImageNetの両方で、SRSGDはSGDベースラインと比較して、トレーニングのエポックを著しく少なくして、類似またはそれ以上のエラー率に達する。
論文 参考訳(メタデータ) (2020-02-24T23:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。