論文の概要: A Diffusion Theory For Deep Learning Dynamics: Stochastic Gradient
Descent Exponentially Favors Flat Minima
- arxiv url: http://arxiv.org/abs/2002.03495v14
- Date: Mon, 22 Jun 2020 03:52:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 07:30:32.127152
- Title: A Diffusion Theory For Deep Learning Dynamics: Stochastic Gradient
Descent Exponentially Favors Flat Minima
- Title(参考訳): 深層学習ダイナミクスの拡散理論:確率的勾配の指数関数的にフラットミニマを好む
- Authors: Zeke Xie, Issei Sato, and Masashi Sugiyama
- Abstract要約: グラディエントDescent (SGD) は, 鋭いミニマよりも指数関数的に平坦なミニマを好んでいる。
また、小さな学習率か大規模なバッチトレーニングのどちらかが、ミニマから逃れるために指数関数的に多くのイテレーションを必要とすることも明らかにした。
- 参考スコア(独自算出の注目度): 91.11332770406007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic Gradient Descent (SGD) and its variants are mainstream methods for
training deep networks in practice. SGD is known to find a flat minimum that
often generalizes well. However, it is mathematically unclear how deep learning
can select a flat minimum among so many minima. To answer the question
quantitatively, we develop a density diffusion theory (DDT) to reveal how
minima selection quantitatively depends on the minima sharpness and the
hyperparameters. To the best of our knowledge, we are the first to
theoretically and empirically prove that, benefited from the Hessian-dependent
covariance of stochastic gradient noise, SGD favors flat minima exponentially
more than sharp minima, while Gradient Descent (GD) with injected white noise
favors flat minima only polynomially more than sharp minima. We also reveal
that either a small learning rate or large-batch training requires
exponentially many iterations to escape from minima in terms of the ratio of
the batch size and learning rate. Thus, large-batch training cannot search flat
minima efficiently in a realistic computational time.
- Abstract(参考訳): Stochastic Gradient Descent (SGD)とその変種は、実際にディープネットワークを訓練するための主流の方法である。
SGD はしばしばよく一般化される平坦な最小値を見つけることが知られている。
しかし、深層学習がこれほど多くのミニマの中でいかに平坦な最小を選択するかは数学的に不明確である。
この疑問に定量的に答えるために,ミニマ選択がミニマシャープネスとハイパーパラメータに依存するかを明らかにする密度拡散理論(DDT)を開発した。
我々の知る限りでは、確率的勾配ノイズのヘッセン依存共分散の恩恵を受け、sgdはシャープなミニマより指数関数的に平坦なミニマを好むのに対し、ホワイトノイズを注入した勾配降下(gd)はシャープなミニマよりは平坦なミニマのみを好むことを、理論上、経験的に初めて証明した。
また、バッチサイズと学習率の比で、小さな学習率または大きなバッチトレーニングは、ミニマから逃れるために指数関数的に多くのイテレーションを必要とすることを明らかにした。
したがって、大規模なバッチトレーニングでは、現実的な計算時間でフラットミニマを効率的に探索することはできない。
関連論文リスト
- Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - The Effect of SGD Batch Size on Autoencoder Learning: Sparsity,
Sharpness, and Feature Learning [14.004531386769328]
単一ニューロンオートエンコーダを用いた場合の勾配降下(SGD)のダイナミクスについて検討する。
サンプル数より小さいバッチサイズの場合、SGDは、そのランダム性にほぼ厳密で疎い、大域的な最小値を見つける。
論文 参考訳(メタデータ) (2023-08-06T21:54:07Z) - How to escape sharp minima with random perturbations [48.095392390925745]
平らなミニマの概念とそれらを見つける複雑さについて研究する。
一般的なコスト関数に対して、近似平坦な局所最小値を求める勾配に基づくアルゴリズムについて論じる。
コスト関数がトレーニングデータよりも経験的リスクであるような環境では、シャープネス認識最小化と呼ばれる最近提案された実用的なアルゴリズムにインスパイアされたより高速なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-25T02:12:33Z) - Gradient Norm Aware Minimization Seeks First-Order Flatness and Improves
Generalization [33.50116027503244]
ゼロ階平坦性は低勾配誤差で最小値の判別に不十分であることを示す。
また,全方向にわたって一様に曲率の小さい最小値を求めるため,GAM(Gradient norm Aware Minimization)と呼ばれる新しいトレーニング手順を提案する。
論文 参考訳(メタデータ) (2023-03-03T16:58:53Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - A variance principle explains why dropout finds flatter minima [0.0]
ドロップアウトによるトレーニングは、標準勾配降下訓練と比較して、より平坦な最小限のニューラルネットワークを見出すことが示される。
本稿では,損失景観のよりシャープな方向において,ノイズの分散が大きくなるという分散原理を提案する。
論文 参考訳(メタデータ) (2021-11-01T15:26:19Z) - Unveiling the structure of wide flat minima in neural networks [0.46664938579243564]
ディープラーニングは、科学全体にわたるネットワークの応用の可能性を明らかにしている。
ディープラーニングの成功は、科学全体にわたるネットワークの適用可能性を明らかにしている。
論文 参考訳(メタデータ) (2021-07-02T16:04:57Z) - Towards Theoretically Understanding Why SGD Generalizes Better Than ADAM
in Deep Learning [165.47118387176607]
ADAMライクな適応勾配アルゴリズムが、学習速度が速いにもかかわらず、SGDよりも悪い一般化性能に苦しむ理由は不明である。
具体的には,これらのアルゴリズムの勾配雑音の重みを観測する。
論文 参考訳(メタデータ) (2020-10-12T12:00:26Z) - Dynamic of Stochastic Gradient Descent with State-Dependent Noise [84.64013284862733]
勾配降下(SGD)とその変種は、ディープニューラルネットワークを訓練するための主流の方法である。
局所ミニマの局所領域におけるSGDのノイズの共分散は状態の二次関数であることを示す。
本稿では,SGDのダイナミクスを近似するために,状態依存拡散を伴う新しいパワーローダイナミクスを提案する。
論文 参考訳(メタデータ) (2020-06-24T13:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。