論文の概要: Benign Overfitting of Constant-Stepsize SGD for Linear Regression
- arxiv url: http://arxiv.org/abs/2103.12692v1
- Date: Tue, 23 Mar 2021 17:15:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 14:01:22.735536
- Title: Benign Overfitting of Constant-Stepsize SGD for Linear Regression
- Title(参考訳): 線形回帰のための定数ステップサイズSGDの良性オーバーフィッティング
- Authors: Difan Zou and Jingfeng Wu and Vladimir Braverman and Quanquan Gu and
Sham M. Kakade
- Abstract要約: 帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
- 参考スコア(独自算出の注目度): 122.70478935214128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is an increasing realization that algorithmic inductive biases are
central in preventing overfitting; empirically, we often see a benign
overfitting phenomenon in overparameterized settings for natural learning
algorithms, such as stochastic gradient descent (SGD), where little to no
explicit regularization has been employed. This work considers this issue in
arguably the most basic setting: constant-stepsize SGD (with iterate averaging)
for linear regression in the overparameterized regime. Our main result provides
a sharp excess risk bound, stated in terms of the full eigenspectrum of the
data covariance matrix, that reveals a bias-variance decomposition
characterizing when generalization is possible: (i) the variance bound is
characterized in terms of an effective dimension (specific for SGD) and (ii)
the bias bound provides a sharp geometric characterization in terms of the
location of the initial iterate (and how it aligns with the data covariance
matrix). We reflect on a number of notable differences between the algorithmic
regularization afforded by (unregularized) SGD in comparison to ordinary least
squares (minimum-norm interpolation) and ridge regression.
- Abstract(参考訳): 経験的には、確率勾配降下(SGD)のような自然学習アルゴリズムの過度なパラメータ設定において、明示的な正規化がほとんど、あるいは全く行われていない良性過剰適合現象がしばしば見られる。
この研究は、この問題をおそらく最も基本的な設定で考える: 過度にパラメータ化されたレジームにおける線形回帰のための定数ステップサイズsgd(反復平均化を伴う)。
我々の主な結果は、データ共分散行列の完全な固有スペクトル(英語版)の言葉で述べたシャープな過剰なリスク境界(英語版)を提供し、これは、一般化可能時に特徴付けるバイアス-分散分解(英語版)を明らかにする: (i) 分散境界は、有効次元(SGD特有の)の言葉で特徴づけられ、 (ii) バイアス境界は、初期イテレートの位置(およびデータ共分散行列との整合性)で鋭い幾何学的特徴を与える。
正規化SGDのアルゴリズム正則化と最小二乗法(最小ノルム補間)とリッジ回帰の相違点について考察した。
関連論文リスト
- The Directional Bias Helps Stochastic Gradient Descent to Generalize in
Kernel Regression Models [7.00422423634143]
非パラメトリック統計学におけるグラディエント・Descent (SGD) アルゴリズムについて検討する。
線形回帰設定で知られているSGDの方向性バイアス特性は、カーネル回帰に一般化される。
論文 参考訳(メタデータ) (2022-04-29T19:44:01Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - Relaxing the Feature Covariance Assumption: Time-Variant Bounds for
Benign Overfitting in Linear Regression [4.650014631979071]
我々は、min-norm解の代わりにトレーニング軌跡全体に対して良性オーバーフィットするという考えを一般化する。
既存の手法とは異なり、新たに提案された一般化境界は、特徴共分散の時変有効次元によって特徴づけられる。
論文 参考訳(メタデータ) (2022-02-12T12:42:36Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - The Benefits of Implicit Regularization from SGD in Least Squares
Problems [116.85246178212616]
勾配降下(SGD)はアルゴリズム正則化効果が強い。
我々は、(正規化されていない)平均SGDで得られる暗黙の正則化とリッジ回帰の明示的な正則化の比較を行う。
論文 参考訳(メタデータ) (2021-08-10T09:56:47Z) - ROOT-SGD: Sharp Nonasymptotics and Asymptotic Efficiency in a Single
Algorithm [102.61698955364831]
我々は,過去の勾配を平均化する特定の形態を動機付け,一般統計の観点から一階最適化を考える。
emphRecursive One-Over-T SGD (ROOT-SGD) と呼ばれるこのアルゴリズムは、オンライン近似手法の最先端収束率と一致する。
論文 参考訳(メタデータ) (2020-08-28T14:46:56Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z) - An Analysis of Constant Step Size SGD in the Non-convex Regime:
Asymptotic Normality and Bias [17.199063087458907]
臨界点が好ましい統計特性を持つ構造化された非学習問題は、統計機械学習において頻繁に発生する。
我々は,SGDアルゴリズムが実際に広く利用されていることを示す。
論文 参考訳(メタデータ) (2020-06-14T13:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。