論文の概要: A variance principle explains why dropout finds flatter minima
- arxiv url: http://arxiv.org/abs/2111.01022v1
- Date: Mon, 1 Nov 2021 15:26:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 16:20:23.773630
- Title: A variance principle explains why dropout finds flatter minima
- Title(参考訳): 分散原理は、ドロップアウトがフラットなミニマを見つける理由を説明する
- Authors: Zhongwang Zhang, Hanxu Zhou, Zhi-Qin John Xu
- Abstract要約: ドロップアウトによるトレーニングは、標準勾配降下訓練と比較して、より平坦な最小限のニューラルネットワークを見出すことが示される。
本稿では,損失景観のよりシャープな方向において,ノイズの分散が大きくなるという分散原理を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although dropout has achieved great success in deep learning, little is known
about how it helps the training find a good generalization solution in the
high-dimensional parameter space. In this work, we show that the training with
dropout finds the neural network with a flatter minimum compared with standard
gradient descent training. We further study the underlying mechanism of why
dropout finds flatter minima through experiments. We propose a {\it Variance
Principle} that the variance of a noise is larger at the sharper direction of
the loss landscape. Existing works show that SGD satisfies the variance
principle, which leads the training to flatter minima. Our work show that the
noise induced by the dropout also satisfies the variance principle that
explains why dropout finds flatter minima. In general, our work points out that
the variance principle is an important similarity between dropout and SGD that
lead the training to find flatter minima and obtain good generalization.
- Abstract(参考訳): ドロップアウトはディープラーニングにおいて大きな成功をおさめたが、高次元パラメータ空間における優れた一般化解を見つけるのにどのように役立つかは分かっていない。
本研究では,ドロップアウトによる学習では,標準的な勾配降下訓練と比較して,ニューラルネットワークが最少で平坦であることを示す。
さらに, 落下が実験によってより平坦なミニマムを発見するメカニズムについて検討した。
ノイズの分散が損失景観のより鋭い方向で大きくなることを, {\displaystyle {\it variance principle} として提案する。
既存の研究によると、sgdは分散原理を満たしており、トレーニングは最小化される。
我々の研究は、落音によるノイズも、落音がフラットなミニマムを見つける理由を説明する分散原理を満たすことを示した。
一般論として, 分散原理は, より平坦な最小値を求め, 優れた一般化を得るためのトレーニングを導くドロップアウトとSGDとの重要な類似性である,と指摘する。
関連論文リスト
- Task-Robust Pre-Training for Worst-Case Downstream Adaptation [62.05108162160981]
プレトレーニングは下流のタスクに移行することで大きな成功を収めた。
本稿では,下流タスクに対する一様性能を保証するモデルについて,事前学習について考察する。
論文 参考訳(メタデータ) (2023-06-21T07:43:23Z) - Dropout Reduces Underfitting [85.61466286688385]
本研究は,トレーニング開始時の不適合を軽減できることを示す。
ドロップアウトは、ミニバッチ間の勾配の方向性のばらつきを低減し、データセット全体の勾配とミニバッチ勾配の整合を支援する。
この結果から,未適合モデルの性能向上のためのソリューションが得られた – 早期のドロップアウト – トレーニングの初期段階でのみドロップアウトが適用され,その後,オフになります。
論文 参考訳(メタデータ) (2023-03-02T18:59:15Z) - Implicit regularization of dropout [3.42658286826597]
一般的な正規化手法であるドロップアウトが、ニューラルネットワークトレーニング中に優れた一般化ソリューションを実現するのにどのように役立つかを理解することが重要である。
本研究では,一連の実験によって検証されたドロップアウトの暗黙の正則化の理論的導出について述べる。
降下によるトレーニングは、標準勾配降下訓練と比較して、より平坦な最小限のニューラルネットワークに導かれることを実験的に見出した。
論文 参考訳(メタデータ) (2022-07-13T04:09:14Z) - Combining resampling and reweighting for faithful stochastic
optimization [1.52292571922932]
損失関数が複数の項の和であるとき、一般的な方法は勾配降下である。
損失関数における複数の項のリプシッツ定数の差は、異なる最小値における異なる分散への勾配降下を引き起こすことを示す。
論文 参考訳(メタデータ) (2021-05-31T04:21:25Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - On regularization of gradient descent, layer imbalance and flat minima [9.08659783613403]
我々は、解の平坦性を定義する新しい計量-不均衡-を用いて、ディープ線形ネットワークのトレーニングダイナミクスを解析する。
重み付け減衰や雑音データ増大などの異なる正規化手法も同様に振る舞うことを実証する。
論文 参考訳(メタデータ) (2020-07-18T00:09:14Z) - Implicit Bias in Deep Linear Classification: Initialization Scale vs
Training Accuracy [71.25689267025244]
移行がスケールとトレーニング損失の最小化の関係によってどのように制御されるかを示す。
以上の結果から,勾配降下の限界挙動は,ばかげた訓練精度でのみ引き起こされることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T23:49:53Z) - Dynamic of Stochastic Gradient Descent with State-Dependent Noise [84.64013284862733]
勾配降下(SGD)とその変種は、ディープニューラルネットワークを訓練するための主流の方法である。
局所ミニマの局所領域におけるSGDのノイズの共分散は状態の二次関数であることを示す。
本稿では,SGDのダイナミクスを近似するために,状態依存拡散を伴う新しいパワーローダイナミクスを提案する。
論文 参考訳(メタデータ) (2020-06-24T13:34:38Z) - A Diffusion Theory For Deep Learning Dynamics: Stochastic Gradient
Descent Exponentially Favors Flat Minima [91.11332770406007]
グラディエントDescent (SGD) は, 鋭いミニマよりも指数関数的に平坦なミニマを好んでいる。
また、小さな学習率か大規模なバッチトレーニングのどちらかが、ミニマから逃れるために指数関数的に多くのイテレーションを必要とすることも明らかにした。
論文 参考訳(メタデータ) (2020-02-10T02:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。