論文の概要: A New Adaptive Gradient Method with Gradient Decomposition
- arxiv url: http://arxiv.org/abs/2107.08377v1
- Date: Sun, 18 Jul 2021 06:37:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 14:39:27.331784
- Title: A New Adaptive Gradient Method with Gradient Decomposition
- Title(参考訳): 勾配分解を用いた新しい適応勾配法
- Authors: Zhou Shao and Tong Lin
- Abstract要約: 我々は、勾配降下(SGD)とその加速スキーム(SGDM)に比較して、低次化を一般化するDecGDと呼ばれる新しい適応法を提案する。
本手法は,Adam方式の2乗勾配に代えて,電流損失に基づくベクトルに応じて学習率を適応的に調整する。
我々は、DECGDがSGDMよりも優れた一般化性能を示し、Adam-type法のような高速収束を示すことを示す。
- 参考スコア(独自算出の注目度): 3.04585143845864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive gradient methods, especially Adam-type methods (such as Adam,
AMSGrad, and AdaBound), have been proposed to speed up the training process
with an element-wise scaling term on learning rates. However, they often
generalize poorly compared with stochastic gradient descent (SGD) and its
accelerated schemes such as SGD with momentum (SGDM). In this paper, we propose
a new adaptive method called DecGD, which simultaneously achieves good
generalization like SGDM and obtain rapid convergence like Adam-type methods.
In particular, DecGD decomposes the current gradient into the product of two
terms including a surrogate gradient and a loss based vector. Our method
adjusts the learning rates adaptively according to the current loss based
vector instead of the squared gradients used in Adam-type methods. The
intuition for adaptive learning rates of DecGD is that a good optimizer, in
general cases, needs to decrease the learning rates as the loss decreases,
which is similar to the learning rates decay scheduling technique. Therefore,
DecGD gets a rapid convergence in the early phases of training and controls the
effective learning rates according to the loss based vectors which help lead to
a better generalization. Convergence analysis is discussed in both convex and
non-convex situations. Finally, empirical results on widely-used tasks and
models demonstrate that DecGD shows better generalization performance than SGDM
and rapid convergence like Adam-type methods.
- Abstract(参考訳): 適応勾配法、特にアダム型法(Adam, AMSGrad, AdaBound など)は、学習率の要素的スケーリング項で学習プロセスを高速化するために提案されている。
しかし、それらは確率勾配降下(SGD)や運動量を持つSGD(SGDM)のような加速スキームと比較すると、よく一般化される。
本稿では,SGDMのような優れた一般化を同時に達成し,Adam型手法のような高速収束を実現するDecGDという新しい適応手法を提案する。
特に、decgdは現在の勾配をサーロゲート勾配と損失に基づくベクトルを含む2つの項の積に分解する。
本手法は,Adam方式の2乗勾配に代えて,電流損失に基づくベクトルに応じて学習率を適応的に調整する。
decgdの適応学習率の直観は、良い最適化器は、一般的には、損失が減少するにつれて学習率を下げる必要があり、これは学習率減衰スケジューリング技術に似ている。
したがって、DecGDは訓練の初期段階において急速に収束し、損失ベースベクトルに従って効果的な学習率を制御し、より良い一般化につながる。
収束解析は凸と非凸の両方の状況で議論される。
最後に、広く使われているタスクやモデルに対する実験結果から、DECGDはSGDMよりも優れた一般化性能を示し、Adam-type法のような高速収束を示した。
関連論文リスト
- Inverse-Free Fast Natural Gradient Descent Method for Deep Learning [52.0693420699086]
本稿では,FNGD法とFNGD法について述べる。
FNGDは、自然勾配降下を、一階法の平均和に類似した固定係数重み付き和として近似する。
論文 参考訳(メタデータ) (2024-03-06T05:13:28Z) - Signal Processing Meets SGD: From Momentum to Filter [3.8065968624597324]
ディープラーニングでは、勾配降下(SGD)とその運動量に基づく変種が最適化アルゴリズムで広く使われている。
既存の適応学習率の変種は収束を加速するが、しばしば一般化能力を犠牲にする。
本稿では,SGDの収束速度を一般化の損失なく高速化することを目的とした新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2023-11-06T01:41:46Z) - Adaptive Top-K in SGD for Communication-Efficient Distributed Learning [14.867068493072885]
本稿では,SGDフレームワークにおける新しい適応Top-Kを提案する。
MNIST と CIFAR-10 データセットの数値結果から,SGD における適応型 Top-K アルゴリズムは,最先端の手法に比べてはるかに優れた収束率が得られることが示された。
論文 参考訳(メタデータ) (2022-10-24T18:33:35Z) - Dissecting adaptive methods in GANs [46.90376306847234]
我々は、適応的手法がGAN(Generative Adversarial Network)の訓練にどう役立つかを検討する。
我々は,Adam更新の程度とSGDの正規化方向の更新ルールを考慮し,Adamの適応度がGANトレーニングの鍵であることを実証的に示す。
この設定では、nSGDAで訓練されたGANが真の分布のすべてのモードを回復するのに対し、SGDA(および学習率構成)で訓練された同じネットワークはモード崩壊に悩まされていることを証明している。
論文 参考訳(メタデータ) (2022-10-09T19:00:07Z) - A Control Theoretic Framework for Adaptive Gradient Optimizers in
Machine Learning [0.6526824510982802]
適応勾配法はディープニューラルネットワークの最適化に人気がある。
最近の例にはAdaGradとAdamがある。
我々は適応的勾配法のための汎用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-04T17:55:33Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Adaptive Inertia: Disentangling the Effects of Adaptive Learning Rate
and Momentum [97.84312669132716]
我々は,アダム力学の適応学習率とモメンタムがサドルポイントエスケープおよびフラットミニマ選択に与える影響を解消する。
提案手法は,SGD法や従来の適応勾配法よりも大幅に一般化可能であることを示す。
論文 参考訳(メタデータ) (2020-06-29T05:21:02Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - Stochastic Runge-Kutta methods and adaptive SGD-G2 stochastic gradient
descent [0.0]
本研究では,2次ランゲ・クッタ法を導入し,損失関数の最小化のための一貫した手順を導出することを示す。
さらに、適応的なフレームワークに結合して、SGDの学習率を自動的に調整するグラディエントDescent(SGD)を組み込むことができる。
適応型SGDはSGD-G2と呼ばれ、標準データセット上でうまくテストされている。
論文 参考訳(メタデータ) (2020-02-20T15:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。