論文の概要: Understanding the Generalization Benefit of Normalization Layers:
Sharpness Reduction
- arxiv url: http://arxiv.org/abs/2206.07085v1
- Date: Tue, 14 Jun 2022 18:19:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 12:43:49.391118
- Title: Understanding the Generalization Benefit of Normalization Layers:
Sharpness Reduction
- Title(参考訳): 正規化層の一般化利益の理解:シャープネス低減
- Authors: Kaifeng Lyu, Zhiyuan Li, Sanjeev Arora
- Abstract要約: 正規化層(例えば、バッチ正規化、レイヤ正規化)は、非常に深い網における最適化の難しさを支援するために導入された。
本稿では,正規化が損失面のシャープネスを低減するためにGDを促進することを示唆する数学的解析と実験を行う。
- 参考スコア(独自算出の注目度): 36.83448475700536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Normalization layers (e.g., Batch Normalization, Layer Normalization) were
introduced to help with optimization difficulties in very deep nets, but they
clearly also help generalization, even in not-so-deep nets. Motivated by the
long-held belief that flatter minima lead to better generalization, this paper
gives mathematical analysis and supporting experiments suggesting that
normalization (together with accompanying weight-decay) encourages GD to reduce
the sharpness of loss surface. Here "sharpness" is carefully defined given that
the loss is scale-invariant, a known consequence of normalization.
Specifically, for a fairly broad class of neural nets with normalization, our
theory explains how GD with a finite learning rate enters the so-called Edge of
Stability (EoS) regime, and characterizes the trajectory of GD in this regime
via a continuous sharpness-reduction flow.
- Abstract(参考訳): 正規化層(バッチ正規化、層正規化など)は、非常に深い網における最適化の難しさを支援するために導入されたが、非深さ網においても明らかに一般化に役立つ。
平坦な極小がより良い一般化につながるという長年の信念に動機づけられた本論文は、正規化(重み決定を伴う)がgdに損失面の鋭さを減少させることを推奨する数学的解析と支援実験を提供する。
ここで「シャープネス」は、損失がスケール不変であり、正規化の既知の結果であるとして慎重に定義される。
具体的には、正規化を持つかなり広い階層のニューラルネットに対して、有限学習率のgdがいわゆる安定性のエッジ(英語版)(eos)レジームに入り、連続的なシャープネス還元フローを通じてgdの軌跡を特徴づける。
関連論文リスト
- Generalization of Scaled Deep ResNets in the Mean-Field Regime [55.77054255101667]
無限深度および広帯域ニューラルネットワークの限界におけるエンスケールResNetについて検討する。
この結果から,遅延学習体制を超えた深層ResNetの一般化能力に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2024-03-14T21:48:00Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Robust Implicit Regularization via Weight Normalization [5.37610807422229]
重み正規化は、重みが実質的に大規模であっても持続する頑健なバイアスを可能にすることを示す。
実験により, 暗黙バイアスの収束速度とロバスト性の両方の利得は, 重み正規化を用いて劇的に改善されることが示唆された。
論文 参考訳(メタデータ) (2023-05-09T13:38:55Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - On generalization bounds for deep networks based on loss surface
implicit regularization [5.68558935178946]
現代のディープニューラルネットワークは、多くのパラメータにもかかわらずよく一般化されている。
現在のディープニューラルネットワークは、多くのパラメータが古典的な統計的学習理論と矛盾するにもかかわらず、よく一般化されている。
論文 参考訳(メタデータ) (2022-01-12T16:41:34Z) - Vanishing Curvature and the Power of Adaptive Methods in Randomly
Initialized Deep Networks [30.467121747150816]
本稿では,ニューラルネットワークの深部で一般的に発生する,いわゆる消滅勾配現象を再考する。
ネットワーク幅が O(depth) 未満のスケールでは, 消失勾配を回避できないことを示す。
論文 参考訳(メタデータ) (2021-06-07T16:29:59Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Optimization Theory for ReLU Neural Networks Trained with Normalization
Layers [82.61117235807606]
ディープニューラルネットワークの成功は、部分的には正規化レイヤの使用によるものだ。
我々の分析は、正規化の導入がランドスケープをどのように変化させ、より高速なアクティベーションを実現するかを示している。
論文 参考訳(メタデータ) (2020-06-11T23:55:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。