論文の概要: Towards Theoretically Understanding Why SGD Generalizes Better Than ADAM
in Deep Learning
- arxiv url: http://arxiv.org/abs/2010.05627v2
- Date: Mon, 29 Nov 2021 03:21:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 05:20:30.794819
- Title: Towards Theoretically Understanding Why SGD Generalizes Better Than ADAM
in Deep Learning
- Title(参考訳): 深層学習におけるSGDの一般化に関する理論的考察
- Authors: Pan Zhou, Jiashi Feng, Chao Ma, Caiming Xiong, Steven Hoi, Weinan E
- Abstract要約: ADAMライクな適応勾配アルゴリズムが、学習速度が速いにもかかわらず、SGDよりも悪い一般化性能に苦しむ理由は不明である。
具体的には,これらのアルゴリズムの勾配雑音の重みを観測する。
- 参考スコア(独自算出の注目度): 165.47118387176607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is not clear yet why ADAM-alike adaptive gradient algorithms suffer from
worse generalization performance than SGD despite their faster training speed.
This work aims to provide understandings on this generalization gap by
analyzing their local convergence behaviors. Specifically, we observe the heavy
tails of gradient noise in these algorithms. This motivates us to analyze these
algorithms through their Levy-driven stochastic differential equations (SDEs)
because of the similar convergence behaviors of an algorithm and its SDE. Then
we establish the escaping time of these SDEs from a local basin. The result
shows that (1) the escaping time of both SGD and ADAM~depends on the Radon
measure of the basin positively and the heaviness of gradient noise negatively;
(2) for the same basin, SGD enjoys smaller escaping time than ADAM, mainly
because (a) the geometry adaptation in ADAM~via adaptively scaling each
gradient coordinate well diminishes the anisotropic structure in gradient noise
and results in larger Radon measure of a basin; (b) the exponential gradient
average in ADAM~smooths its gradient and leads to lighter gradient noise tails
than SGD. So SGD is more locally unstable than ADAM~at sharp minima defined as
the minima whose local basins have small Radon measure, and can better escape
from them to flatter ones with larger Radon measure. As flat minima here which
often refer to the minima at flat or asymmetric basins/valleys often generalize
better than sharp ones , our result explains the better generalization
performance of SGD over ADAM. Finally, experimental results confirm our
heavy-tailed gradient noise assumption and theoretical affirmation.
- Abstract(参考訳): ADAMライクな適応勾配アルゴリズムが、学習速度が速いにもかかわらず、SGDよりも悪い一般化性能に苦しむ理由は不明である。
本研究は, 局所収束挙動を解析することにより, この一般化ギャップに関する理解を提供することを目的とする。
具体的には,これらのアルゴリズムの勾配雑音の重みを観測する。
このことは、アルゴリズムとSDEの類似した収束挙動のため、Levi-driven stochastic differential equations (SDE) を通してこれらのアルゴリズムを分析する動機付けとなる。
そして、これらのSDEを局所的な盆地から逃避する時間を確立する。
その結果,(1) sgdとadamの脱出時間は, 盆地のラドン測度の正の値と勾配雑音の重みに依存すること, (2) 同じ盆地では, sgdの脱出時間がアダムよりも小さいこと, 主にアダムよりも小さいこと, が得られた。
(a)各勾配座標を順応的にスケールするADAM~viaにおける幾何適応は勾配雑音の異方性構造を小さくし、盆地のラドン測度を大きくする。
b)ADAM~Smoothの指数勾配平均は勾配を滑らかにし,SGDよりも軽い勾配雑音を生じる。
したがって、SGDはADAM~At sharp minimaより局所的に不安定であり、局所的な盆地が小さなラドン測度を持つミニマとして定義される。
ここでの平らなミニマは平らな盆地や非対称な盆地や谷のミニマを指すことが多いので、アダムよりもsgdの方がよく一般化する。
最後に,重み付き勾配雑音の仮定と理論的肯定を実験的に検証した。
関連論文リスト
- Why is parameter averaging beneficial in SGD? An objective smoothing perspective [13.863368438870562]
勾配降下(SGD)とその暗黙バイアスは、しばしばミニマの鋭さによって特徴づけられる。
Izmailov et alで実証的に観察された一般用平均SGDアルゴリズムについて検討した。
本研究では,SGDの平均値が局所的な局所最小値を回避するスムーズな目的を効率的に最適化できることを証明した。
論文 参考訳(メタデータ) (2023-02-18T16:29:06Z) - Non Asymptotic Bounds for Optimization via Online Multiplicative
Stochastic Gradient Descent [0.0]
グラディエントDescent(SGD)の勾配雑音は,その特性において重要な役割を担っていると考えられている。
ミニバッチによるSGDの平均と共分散構造を持つ雑音クラスは、同様の特性を持つことを示す。
また,M-SGDアルゴリズムの強い凸状態における収束の限界を定めている。
論文 参考訳(メタデータ) (2021-12-14T02:25:43Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Understanding Long Range Memory Effects in Deep Neural Networks [10.616643031188248]
深層学習において,SGD(textitstochastic gradient descent)が重要である。
本研究では, SGN はガウス的でも安定でもないと主張する。
そこで本研究では,SGDをFBM(textitfractional Brownian Motion)によって駆動されるSDEの離散化と見なすことができる。
論文 参考訳(メタデータ) (2021-05-05T13:54:26Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Dynamic of Stochastic Gradient Descent with State-Dependent Noise [84.64013284862733]
勾配降下(SGD)とその変種は、ディープニューラルネットワークを訓練するための主流の方法である。
局所ミニマの局所領域におけるSGDのノイズの共分散は状態の二次関数であることを示す。
本稿では,SGDのダイナミクスを近似するために,状態依存拡散を伴う新しいパワーローダイナミクスを提案する。
論文 参考訳(メタデータ) (2020-06-24T13:34:38Z) - Shape Matters: Understanding the Implicit Bias of the Noise Covariance [76.54300276636982]
勾配降下のノイズはパラメータ化モデルに対するトレーニングにおいて重要な暗黙の正則化効果をもたらす。
ミニバッチやラベルの摂動によって引き起こされるパラメータ依存ノイズはガウスノイズよりもはるかに効果的であることを示す。
分析の結果,パラメータ依存ノイズは局所最小値に偏りを生じさせるが,球状ガウス雑音は生じないことがわかった。
論文 参考訳(メタデータ) (2020-06-15T18:31:02Z) - A Diffusion Theory For Deep Learning Dynamics: Stochastic Gradient
Descent Exponentially Favors Flat Minima [91.11332770406007]
グラディエントDescent (SGD) は, 鋭いミニマよりも指数関数的に平坦なミニマを好んでいる。
また、小さな学習率か大規模なバッチトレーニングのどちらかが、ミニマから逃れるために指数関数的に多くのイテレーションを必要とすることも明らかにした。
論文 参考訳(メタデータ) (2020-02-10T02:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。