論文の概要: Implicit Regularization in ReLU Networks with the Square Loss
- arxiv url: http://arxiv.org/abs/2012.05156v2
- Date: Tue, 15 Dec 2020 18:49:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 02:12:56.956334
- Title: Implicit Regularization in ReLU Networks with the Square Loss
- Title(参考訳): 正方形損失を持つReLUネットワークにおける入射正則化
- Authors: Gal Vardi and Ohad Shamir
- Abstract要約: モデルパラメータの明示的な関数によって、平方損失による暗黙の正規化を特徴付けることは不可能であることを示す。
非線形予測器の暗黙的正規化を理解するためには,より一般的な枠組みが必要であることが示唆された。
- 参考スコア(独自算出の注目度): 56.70360094597169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the implicit regularization (or implicit bias) of gradient
descent has recently been a very active research area. However, the implicit
regularization in nonlinear neural networks is still poorly understood,
especially for regression losses such as the square loss. Perhaps surprisingly,
we prove that even for a single ReLU neuron, it is impossible to characterize
the implicit regularization with the square loss by any explicit function of
the model parameters (although on the positive side, we show it can be
characterized approximately). For one hidden-layer networks, we prove a similar
result, where in general it is impossible to characterize implicit
regularization properties in this manner, except for the "balancedness"
property identified in Du et al. [2018]. Our results suggest that a more
general framework than the one considered so far may be needed to understand
implicit regularization for nonlinear predictors, and provides some clues on
what this framework should be.
- Abstract(参考訳): 勾配降下の暗黙の正規化(または暗黙のバイアス)を理解することは、最近非常に活発な研究領域である。
しかし、非線形ニューラルネットワークにおける暗黙の正則化は、特に正方形損失のような回帰損失についてはまだ理解されていない。
意外なことに、単一のReLUニューロンであっても、モデルパラメータの明示的な関数によって平方損失による暗黙の正規化を特徴付けることは不可能である(正の側では、概ね特徴付けられる)。
1つの隠れ層ネットワークに対して、Du et al で特定される「均衡性」の性質を除いて、一般にこの方法で暗黙の正規化特性を特徴づけることは不可能である。
[2018].
この結果から, 非線形予測器の暗黙的正規化を理解するためには, これまでに検討したフレームワークよりも一般的なフレームワークが必要であることが示唆された。
関連論文リスト
- Generalization for Least Squares Regression With Simple Spiked Covariances [3.9134031118910264]
勾配降下によって訓練された2層ニューラルネットワークの一般化特性はいまだよく分かっていない。
最近の研究は、隠れた層における特徴行列のスペクトルを記述することで進展した。
しかし、スパイク共分散を持つ線形モデルの一般化誤差は以前には決定されていない。
論文 参考訳(メタデータ) (2024-10-17T19:46:51Z) - The Double-Edged Sword of Implicit Bias: Generalization vs. Robustness
in ReLU Networks [64.12052498909105]
本稿では,ReLUネットワークにおける勾配流の暗黙的バイアスが一般化と対角的ロバスト性に与える影響について検討する。
2層ReLUネットワークでは、勾配流は一般化された解に偏りがあるが、敵の例には非常に弱い。
論文 参考訳(メタデータ) (2023-03-02T18:14:35Z) - Penalising the biases in norm regularisation enforces sparsity [28.86954341732928]
この研究は、関数を表すのに必要なパラメータのノルムが、その第二微分の総変分によって与えられることを示し、$sqrt1+x2$ factorで重み付けされる。
特に、この重み付け係数はバイアス項のノルムが正規化されないときに消失する。
論文 参考訳(メタデータ) (2023-03-02T15:33:18Z) - Implicit Regularization for Group Sparsity [33.487964460794764]
正方形回帰損失に対する勾配勾配は, 明示的な正則化を伴わずに, 群間隔構造を持つ解に偏りを示す。
一般雑音設定における回帰問題の勾配ダイナミクスを解析し,最小最適誤差率を求める。
サイズ 1 群の退化の場合、我々の手法は疎線形回帰の新しいアルゴリズムを生み出す。
論文 参考訳(メタデータ) (2023-01-29T20:54:03Z) - On generalization bounds for deep networks based on loss surface
implicit regularization [5.68558935178946]
現代のディープニューラルネットワークは、多くのパラメータにもかかわらずよく一般化されている。
現在のディープニューラルネットワークは、多くのパラメータが古典的な統計的学習理論と矛盾するにもかかわらず、よく一般化されている。
論文 参考訳(メタデータ) (2022-01-12T16:41:34Z) - Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。
本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-09-29T00:50:00Z) - Avoiding unwanted results in locally linear embedding: A new
understanding of regularization [1.0152838128195465]
局所的な線形埋め込みは、正規化が使われない場合、本質的にいくつかの望ましくない結果が認められる。
これらの悪い結果はすべて、正規化を用いることで効果的に防止できることが観察された。
論文 参考訳(メタデータ) (2021-08-28T17:23:47Z) - Interpolation can hurt robust generalization even when there is no noise [76.3492338989419]
リッジの正規化による一般化の回避は,ノイズがなくても大幅に一般化できることを示す。
この現象は線形回帰と分類の両方のロバストなリスクを証明し、したがってロバストなオーバーフィッティングに関する最初の理論的結果を与える。
論文 参考訳(メタデータ) (2021-08-05T23:04:15Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Dimension Free Generalization Bounds for Non Linear Metric Learning [61.193693608166114]
我々はスパース体制と非スパース体制という2つの体制に対して一様一般化境界を提供する。
解の異なる新しい性質を頼りにすることで、次元自由一般化保証を提供することができることを示す。
論文 参考訳(メタデータ) (2021-02-07T14:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。