論文の概要: Adaptive Gradient Method with Resilience and Momentum
- arxiv url: http://arxiv.org/abs/2010.11041v1
- Date: Wed, 21 Oct 2020 14:49:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 00:54:00.433434
- Title: Adaptive Gradient Method with Resilience and Momentum
- Title(参考訳): レジリエンスとモーメントを考慮した適応勾配法
- Authors: Jie Liu, Chen Lin, Chuming Li, Lu Sheng, Ming Sun, Junjie Yan, Wanli
Ouyang
- Abstract要約: レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
- 参考スコア(独自算出の注目度): 120.83046824742455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several variants of stochastic gradient descent (SGD) have been proposed to
improve the learning effectiveness and efficiency when training deep neural
networks, among which some recent influential attempts would like to adaptively
control the parameter-wise learning rate (e.g., Adam and RMSProp). Although
they show a large improvement in convergence speed, most adaptive learning rate
methods suffer from compromised generalization compared with SGD. In this
paper, we proposed an Adaptive Gradient Method with Resilience and Momentum
(AdaRem), motivated by the observation that the oscillations of network
parameters slow the training, and give a theoretical proof of convergence. For
each parameter, AdaRem adjusts the parameter-wise learning rate according to
whether the direction of one parameter changes in the past is aligned with the
direction of the current gradient, and thus encourages long-term consistent
parameter updating with much fewer oscillations. Comprehensive experiments have
been conducted to verify the effectiveness of AdaRem when training various
models on a large-scale image recognition dataset, e.g., ImageNet, which also
demonstrate that our method outperforms previous adaptive learning rate-based
algorithms in terms of the training speed and the test error, respectively.
- Abstract(参考訳): 深層ニューラルネットワークを訓練する際の学習効率と効率を改善するために、数種類の確率勾配降下法(SGD)が提案されている。
収束速度は大幅に向上するが,適応学習速度法はsgdに比べて一般化が損なわれることが多い。
本稿では,ネットワークパラメータの振動がトレーニングを遅くするという観測に動機づけられた,弾性運動量(adarem)を用いた適応勾配法を提案し,収束の理論的証明を与える。
各パラメータに対して、AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかに応じてパラメータ単位の学習率を調整し、より少ない振動で長期的な一貫したパラメータ更新を促す。
大規模画像認識データセット(例えばimagenet)上で様々なモデルのトレーニングを行う際のadaremの有効性を検証するために,総合的な実験を行った。
関連論文リスト
- Adaptive Friction in Deep Learning: Enhancing Optimizers with Sigmoid and Tanh Function [0.0]
我々は適応摩擦係数を統合する2つの新しい勾配であるsigSignGradとtanhSignGradを紹介する。
我々の理論解析は,摩擦係数Sの広帯域調整能力を示す。
ResNet50 と ViT アーキテクチャを用いた CIFAR-10, Mini-Image-Net 実験により,提案手法の優れた性能が確認された。
論文 参考訳(メタデータ) (2024-08-07T03:20:46Z) - Asymmetric Momentum: A Rethinking of Gradient Descent [4.1001738811512345]
LCAM(Los-Controlled Asymmetric Momentum)の最も単純なSGD拡張手法を提案する。
損失を平均化することにより、トレーニングプロセスを異なる損失フェーズに分割し、異なる運動量を使用する。
重みが方向特異性を持つことを実験的に検証し、データセットの特異性と相関する。
論文 参考訳(メタデータ) (2023-09-05T11:16:47Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - No Parameters Left Behind: Sensitivity Guided Adaptive Learning Rate for
Training Large Transformer Models [132.90062129639705]
本稿では,全てのパラメータを十分に訓練するための新しいトレーニング戦略を提案する。
感度の低いパラメータは冗長であり、学習率を高めて適合性を改善する。
対照的に、高い感度を持つパラメータを十分に訓練し、学習率を下げて正規化することで、さらなる過度なオーバーフィッティングを防止する。
論文 参考訳(メタデータ) (2022-02-06T00:22:28Z) - Robust Learning via Persistency of Excitation [4.674053902991301]
勾配勾配勾配を用いたネットワークトレーニングは力学系パラメータ推定問題と等価であることを示す。
極値理論を用いて対応するリプシッツ定数を推定する効率的な手法を提案する。
我々の手法は、様々な最先端の対数訓練モデルにおいて、対数精度を0.1%から0.3%に普遍的に向上させる。
論文 参考訳(メタデータ) (2021-06-03T18:49:05Z) - Adam revisited: a weighted past gradients perspective [57.54752290924522]
本稿では,非収束問題に取り組むための適応法重み付け適応アルゴリズム(wada)を提案する。
私たちは、WADAが重み付きデータ依存の後悔境界を達成できることを証明します。
論文 参考訳(メタデータ) (2021-01-01T14:01:52Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Gradient Monitored Reinforcement Learning [0.0]
我々は、強化学習アルゴリズムにおける訓練の強化と評価性能に焦点をあてる。
本稿では,トレーニングプロセス自体からの動的発達とフィードバックに基づいて,ニューラルネットワークの重みパラメータの学習をステアリングする手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T13:45:47Z) - A Dynamic Sampling Adaptive-SGD Method for Machine Learning [8.173034693197351]
本稿では,勾配近似の計算に使用されるバッチサイズと,その方向に移動するステップサイズを適応的に制御する手法を提案する。
提案手法は局所曲率情報を利用して探索方向を高い確率で降下方向とする。
数値実験により、この手法は最適な学習率を選択することができ、ロジスティック回帰とDNNを訓練するための微調整されたSGDと好適に比較できることが示された。
論文 参考訳(メタデータ) (2019-12-31T15:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。