論文の概要: Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization
- arxiv url: http://arxiv.org/abs/2108.11371v1
- Date: Wed, 25 Aug 2021 17:58:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-26 13:05:19.325722
- Title: Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization
- Title(参考訳): 適切な正規化を伴うニューラルネットワーク学習におけるadamの一般化の理解
- Authors: Difan Zou and Yuan Cao and Yuanzhi Li and Quanquan Gu
- Abstract要約: 我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
- 参考スコア(独自算出の注目度): 118.50301177912381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive gradient methods such as Adam have gained increasing popularity in
deep learning optimization. However, it has been observed that compared with
(stochastic) gradient descent, Adam can converge to a different solution with a
significantly worse test error in many deep learning applications such as image
classification, even with a fine-tuned regularization. In this paper, we
provide a theoretical explanation for this phenomenon: we show that in the
nonconvex setting of learning over-parameterized two-layer convolutional neural
networks starting from the same random initialization, for a class of data
distributions (inspired from image data), Adam and gradient descent (GD) can
converge to different global solutions of the training objective with provably
different generalization errors, even with weight decay regularization. In
contrast, we show that if the training objective is convex, and the weight
decay regularization is employed, any optimization algorithms including Adam
and GD will converge to the same solution if the training is successful. This
suggests that the inferior generalization performance of Adam is fundamentally
tied to the nonconvex landscape of deep learning optimization.
- Abstract(参考訳): adamのような適応勾配法は、ディープラーニング最適化で人気が高まっている。
しかし、(確率的な)勾配降下と比較して、Adamは、微調整された正規化であっても、画像分類のような多くのディープラーニングアプリケーションにおいて、はるかに悪いテスト誤差で異なる解に収束できる。
本稿では,学習の非凸設定において,同一のランダム初期化から開始した2層畳み込みニューラルネットワークにおいて,画像データから着想を得たデータ分布のクラスに対して,adam andgradient descent (gd) がトレーニング対象の異なるグローバル解に収束することを示す。
対照的に、トレーニング対象が凸であり、重量減少正規化が採用されている場合、adamやgdを含む任意の最適化アルゴリズムは、トレーニングが成功すれば同じ解に収束する。
これは、Adamの劣等な一般化性能が、ディープラーニング最適化の非凸景観と根本的に結びついていることを示唆している。
関連論文リスト
- Conjugate-Gradient-like Based Adaptive Moment Estimation Optimization Algorithm for Deep Learning [2.695991050833627]
本稿では,ディープラーニングのためのCG-like-Adamという新しい最適化アルゴリズムを提案する。
具体的には、ジェネリック・アダムの第1次と第2次モーメント推定の両方を共役次数様に置き換える。
CIFAR10/100データセットに基づく提案アルゴリズムの優位性を示す数値実験を行った。
論文 参考訳(メタデータ) (2024-04-02T07:57:17Z) - AdamL: A fast adaptive gradient method incorporating loss function [1.6025685183216696]
本稿では,Adamの新たな変種であるAdamLを提案する。
我々は,Adam,EAdam,AdaBeliefと比較して,AdamLが最速収束あるいは最小目標関数値を達成することを示す。
バニラ畳み込みニューラルネットワークの場合、AdamLは他のAdamの変種とは違い、トレーニングの後半段階では学習率を手動で調整する必要がなくなる。
論文 参考訳(メタデータ) (2023-12-23T16:32:29Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Convergence rates for gradient descent in the training of
overparameterized artificial neural networks with biases [3.198144010381572]
近年、人工ニューラルネットワークは、古典的なソリューションが近づいている多数の問題に対処するための強力なツールに発展しています。
ランダムな勾配降下アルゴリズムが限界に達する理由はまだ不明である。
論文 参考訳(メタデータ) (2021-02-23T18:17:47Z) - Linear Regression with Distributed Learning: A Generalization Error
Perspective [0.0]
大規模線形回帰のための分散学習の性能を検討する。
我々は、一般化エラー、すなわち、見当たらないデータのパフォーマンスに焦点を当てる。
その結果、分散ソリューションの一般化誤差は、集中ソリューションの一般化誤差よりも大幅に高いことが示された。
論文 参考訳(メタデータ) (2021-01-22T08:43:28Z) - Towards Practical Adam: Non-Convexity, Convergence Theory, and
Mini-Batch Acceleration [12.744658958445024]
Adamは、ディープニューラルネットワークをトレーニングするための最も影響力のある適応アルゴリズムの1つです。
適応学習率の低下、大きなバッチサイズの採用など、既存のアプローチは、Adam型アルゴリズムの収束を促進しようとしている。
本稿では,履歴ベース学習率のパラメータにのみ依存する,代替的な簡易チェック条件を提案する。
論文 参考訳(メタデータ) (2021-01-14T06:42:29Z) - Fast Learning of Graph Neural Networks with Guaranteed Generalizability:
One-hidden-layer Case [93.37576644429578]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから実際に学習する上で、近年大きな進歩を遂げている。
回帰問題と二項分類問題の両方に隠れ層を持つGNNの理論的に基底的な一般化可能性解析を行う。
論文 参考訳(メタデータ) (2020-06-25T00:45:52Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。