論文の概要: Implicit Regularization Leads to Benign Overfitting for Sparse Linear
Regression
- arxiv url: http://arxiv.org/abs/2302.00257v2
- Date: Fri, 26 May 2023 03:27:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 20:50:01.067912
- Title: Implicit Regularization Leads to Benign Overfitting for Sparse Linear
Regression
- Title(参考訳): 暗黙の正規化はスパース線形回帰の良性過剰をもたらす
- Authors: Mo Zhou, Rong Ge
- Abstract要約: ディープラーニングでは、しばしばトレーニングプロセスは補間子(トレーニング損失0のソリューション)を見つけるが、テスト損失は依然として低い。
良性オーバーフィッティングの一般的なメカニズムは暗黙の正則化であり、そこでは、トレーニングプロセスが補間子にさらなる特性をもたらす。
勾配勾配勾配による新モデルの訓練は, ほぼ最適試験損失を伴う補間器に導かれることを示す。
- 参考スコア(独自算出の注目度): 16.551664358490658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In deep learning, often the training process finds an interpolator (a
solution with 0 training loss), but the test loss is still low. This
phenomenon, known as benign overfitting, is a major mystery that received a lot
of recent attention. One common mechanism for benign overfitting is implicit
regularization, where the training process leads to additional properties for
the interpolator, often characterized by minimizing certain norms. However,
even for a simple sparse linear regression problem $y = \beta^{*\top} x +\xi$
with sparse $\beta^*$, neither minimum $\ell_1$ or $\ell_2$ norm interpolator
gives the optimal test loss. In this work, we give a different parametrization
of the model which leads to a new implicit regularization effect that combines
the benefit of $\ell_1$ and $\ell_2$ interpolators. We show that training our
new model via gradient descent leads to an interpolator with near-optimal test
loss. Our result is based on careful analysis of the training dynamics and
provides another example of implicit regularization effect that goes beyond
norm minimization.
- Abstract(参考訳): ディープラーニングでは、しばしばトレーニングプロセスは補間子(トレーニング損失0のソリューション)を見つけるが、テスト損失は依然として低い。
この現象は良心過剰とよばれるもので、近年多くの注目を集めた大きな謎である。
良性オーバーフィッティングの一般的なメカニズムは暗黙の正則化であり、そこでは、トレーニングプロセスが補間器のさらなる性質につながり、しばしば特定のノルムを最小化する。
しかし、単純なスパース線型回帰問題 $y = \beta^{*\top} x +\xi$ with sparse $\beta^*$, both minimum $\ell_1$ or $\ell_2$ norm interpolator は最適なテスト損失を与える。
この研究では、モデルの異なるパラメータ化を行い、$\ell_1$ と $\ell_2$ の補間器の利点を組み合わせた新しい暗黙的正規化効果をもたらす。
勾配降下による新しいモデルの訓練は, ほぼ最適試験損失を伴う補間器につながることを示す。
この結果はトレーニング力学を慎重に分析し,ノルム最小化を超える暗黙の正規化効果の別の例を提供する。
関連論文リスト
- Stable Minima Cannot Overfit in Univariate ReLU Networks: Generalization by Large Step Sizes [29.466981306355066]
固定学習率$eta$の勾配降下はスムーズな関数を表す局所最小値しか見つからないことを示す。
また、$n$のデータポイントのサポートの厳密な内部で、$widetildeO(n-4/5)$のほぼ最適MSE境界を証明します。
論文 参考訳(メタデータ) (2024-06-10T22:57:27Z) - Robust Capped lp-Norm Support Vector Ordinal Regression [85.84718111830752]
正規回帰は、ラベルが固有の順序を示す特殊な教師付き問題である。
卓越した順序回帰モデルとしてのベクトル順序回帰は、多くの順序回帰タスクで広く使われている。
我々は,新たなモデルであるCapped $ell_p$-Norm Support Vector Ordinal Regression (CSVOR)を導入する。
論文 参考訳(メタデータ) (2024-04-25T13:56:05Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Noisy Interpolation Learning with Shallow Univariate ReLU Networks [33.900009202637285]
Mallinar et. al. 2022 は、ニューラルネットワークはしばしば誘惑的な過剰適合を示すが、人口リスクはベイズ最適誤差に収束しないと指摘した。
最小重み付き回帰の過度適合挙動を厳密に分析した。
論文 参考訳(メタデータ) (2023-07-28T08:41:12Z) - The Implicit Bias of Batch Normalization in Linear Models and Two-layer
Linear Convolutional Neural Networks [117.93273337740442]
勾配勾配勾配は、exp(-Omega(log2 t))$収束率でトレーニングデータ上の一様マージン分類器に収束することを示す。
また、バッチ正規化はパッチワイドの均一なマージンに対して暗黙の偏りを持つことを示す。
論文 参考訳(メタデータ) (2023-06-20T16:58:00Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Greedy Pruning with Group Lasso Provably Generalizes for Matrix Sensing [30.508036898655114]
プルーニングスキームは、大量のパラメータを持つ訓練されたモデルの複雑さを減らすために、実際に広く用いられている。
正規化がない場合の勾配降下は、グリーディプルーニングに適さないモデル、すなわち、多くの列が最大値に匹敵する$ell$ノルムを持つことができる。
以上の結果から,グリーディ・プルーニング+ファインチューニングがより小さなモデルに繋がる理由について,より厳密な考察が得られた。
論文 参考訳(メタデータ) (2023-03-20T21:05:44Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - Minimum $\ell_{1}$-norm interpolators: Precise asymptotics and multiple
descent [19.781475554462553]
本稿では、最小$ell_1$-norm補間器という、重要な種類の補間器の理論的理解を追求する。
我々は、奇異な多発現象である厳密な理論的正当化を観察し、提供する。
我々の発見は、2つの未知の非線形方程式からなる2つのシステムによって制御されるリスク行動の正確な特徴に基づいている。
論文 参考訳(メタデータ) (2021-10-18T17:51:14Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Online nonparametric regression with Sobolev kernels [99.12817345416846]
我々は、ソボレフ空間のクラス上の後悔の上限を$W_pbeta(mathcalX)$, $pgeq 2, beta>fracdp$ とする。
上界は minimax regret analysis で支えられ、$beta> fracd2$ または $p=infty$ の場合、これらの値は(本質的に)最適である。
論文 参考訳(メタデータ) (2021-02-06T15:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。