論文の概要: Explicit Regularization in Overparametrized Models via Noise Injection
- arxiv url: http://arxiv.org/abs/2206.04613v2
- Date: Fri, 10 Jun 2022 15:48:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 11:50:39.881988
- Title: Explicit Regularization in Overparametrized Models via Noise Injection
- Title(参考訳): ノイズインジェクションによる過パラメータモデルの明示的正規化
- Authors: Antonio Orvieto, Anant Raj, Hans Kersting and Francis Bach
- Abstract要約: 簡単な有限次元モデルに対して、小さな摂動が明示的な正則化をもたらすことを示す。
実験により,小摂動がバニラ勾配降下訓練よりも一般化性能の向上につながることが示された。
- 参考スコア(独自算出の注目度): 14.492434617004932
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Injecting noise within gradient descent has several desirable features. In
this paper, we explore noise injection before computing a gradient step, which
is known to have smoothing and regularizing properties. We show that small
perturbations induce explicit regularization for simple finite-dimensional
models based on the l1-norm, group l1-norms, or nuclear norms. When applied to
overparametrized neural networks with large widths, we show that the same
perturbations do not work due to variance explosion resulting from
overparametrization. However, we also show that independent layer wise
perturbations allow to avoid the exploding variance term, and explicit
regularizers can then be obtained. We empirically show that the small
perturbations lead to better generalization performance than vanilla
(stochastic) gradient descent training, with minor adjustments to the training
procedure.
- Abstract(参考訳): 勾配降下中の騒音の注入にはいくつかの望ましい特徴がある。
本稿では,スムース化および正規化特性を有するグラデーションステップを計算する前に,ノイズインジェクションについて検討する。
小さな摂動は、l1-ノルム、群 l1-ノルム、核ノルムに基づく単純な有限次元モデルに対して明示的な正則化をもたらすことを示す。
大幅の過パラメータニューラルネットワークに適用すると、過パラメータ化によって生じる分散爆発によって同じ摂動が機能しないことが示された。
しかし, 独立層を賢明に摂動させることで, 拡散項の爆発を回避でき, 明示的な正則化も得られることを示した。
実験では,小さな摂動がバニラ (stochastic) 勾配降下訓練よりも一般化性能が向上し,訓練手順に微調整を加えた。
関連論文リスト
- Gradient-Based Feature Learning under Structured Data [57.76552698981579]
異方性設定では、一般的に使用される球面勾配力学は真の方向を回復できないことがある。
バッチ正規化を連想させる適切な重み正規化は、この問題を軽減することができることを示す。
特に、スパイクモデルの下では、勾配に基づくトレーニングのサンプルの複雑さは情報指数とは独立にできる。
論文 参考訳(メタデータ) (2023-09-07T16:55:50Z) - NoMorelization: Building Normalizer-Free Models from a Sample's
Perspective [17.027460848621434]
我々は「NoMorelization」と呼ばれる正規化の単純かつ効果的な代替案を提案する。
NoMorelizationは2つのトレーニング可能なスカラーと0中心ノイズインジェクタで構成されている。
既存の主流正規化器と比較して、NoMorelizationは最高速度精度のトレードオフを示している。
論文 参考訳(メタデータ) (2022-10-13T12:04:24Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Asymmetric Heavy Tails and Implicit Bias in Gaussian Noise Injections [73.95786440318369]
我々は、勾配降下(SGD)のダイナミクスに対する注射ノイズの影響であるGNIsのいわゆる暗黙効果に焦点を当てています。
この効果は勾配更新に非対称な重尾ノイズを誘発することを示す。
そして、GNIが暗黙のバイアスを引き起こすことを正式に証明し、これは尾の重みと非対称性のレベルによって異なる。
論文 参考訳(メタデータ) (2021-02-13T21:28:09Z) - Understanding Double Descent Requires a Fine-Grained Bias-Variance
Decomposition [34.235007566913396]
ラベルに関連付けられた用語への分散の解釈可能で対称的な分解について述べる。
バイアスはネットワーク幅とともに単調に減少するが、分散項は非単調な振る舞いを示す。
我々はまた、著しく豊かな現象論も分析する。
論文 参考訳(メタデータ) (2020-11-04T21:04:02Z) - Implicit Gradient Regularization [18.391141066502644]
勾配降下は、過度に適合せず、明示的な正規化もなく、ディープニューラルネットワークを最適化するのに驚くほど適しています。
我々はImplicit Gradient Regularization (IGR)と呼び、後方誤差解析を用いて正規化のサイズを計算する。
論文 参考訳(メタデータ) (2020-09-23T14:17:53Z) - The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文 参考訳(メタデータ) (2020-08-15T20:55:40Z) - Shape Matters: Understanding the Implicit Bias of the Noise Covariance [76.54300276636982]
勾配降下のノイズはパラメータ化モデルに対するトレーニングにおいて重要な暗黙の正則化効果をもたらす。
ミニバッチやラベルの摂動によって引き起こされるパラメータ依存ノイズはガウスノイズよりもはるかに効果的であることを示す。
分析の結果,パラメータ依存ノイズは局所最小値に偏りを生じさせるが,球状ガウス雑音は生じないことがわかった。
論文 参考訳(メタデータ) (2020-06-15T18:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。