論文の概要: Under-Parameterized Double Descent for Ridge Regularized Least Squares
Denoising of Data on a Line
- arxiv url: http://arxiv.org/abs/2305.14689v1
- Date: Wed, 24 May 2023 03:52:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 19:57:07.610602
- Title: Under-Parameterized Double Descent for Ridge Regularized Least Squares
Denoising of Data on a Line
- Title(参考訳): 線上のデータの最小二乗数を正規化したリッジの低パラメータ二重降下
- Authors: Rishi Sonthalia and Xinyue Li and Bochao Gu
- Abstract要約: このモデルに対して、パラメータワイドの2重降下が小さな$mu$に対して発生することを示す。
入力データノイズレギュレータよりもリッジレギュレータを使うことを暗黙的に好んでいるという実証的証拠を提供する。
- 参考スコア(独自算出の注目度): 3.437656066916039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The relationship between the number of training data points, the number of
parameters in a statistical model, and the generalization capabilities of the
model has been widely studied. Previous work has shown that double descent can
occur in the over-parameterized regime, and believe that the standard
bias-variance trade-off holds in the under-parameterized regime. In this paper,
we present a simple example that provably exhibits double descent in the
under-parameterized regime. For simplicity, we look at the ridge regularized
least squares denoising problem with data on a line embedded in high-dimension
space. By deriving an asymptotically accurate formula for the generalization
error, we observe sample-wise and parameter-wise double descent with the peak
in the under-parameterized regime rather than at the interpolation point or in
the over-parameterized regime.
Further, the peak of the sample-wise double descent curve corresponds to a
peak in the curve for the norm of the estimator, and adjusting $\mu$, the
strength of the ridge regularization, shifts the location of the peak. We
observe that parameter-wise double descent occurs for this model for small
$\mu$. For larger values of $\mu$, we observe that the curve for the norm of
the estimator has a peak but that this no longer translates to a peak in the
generalization error. Moreover, we study the training error for this problem.
The considered problem setup allows for studying the interaction between two
regularizers. We provide empirical evidence that the model implicitly favors
using the ridge regularizer over the input data noise regularizer. Thus, we
show that even though both regularizers regularize the same quantity, i.e., the
norm of the estimator, they are not equivalent.
- Abstract(参考訳): 学習データ点数、統計モデルにおけるパラメータ数、モデルの一般化能力との関係は広く研究されている。
従来の研究では、過度パラメータ化政権では二重降下が起こりうることが示されており、標準バイアス分散トレードオフは過度パラメータ化政権では成り立つと信じられていた。
本稿では、パラメータ下状態における二重降下を確実に示す簡単な例を示す。
単純性のために、高次元空間に埋め込まれた直線上のデータを用いて、リッジを正規化した最小二乗問題を考える。
一般化誤差の漸近的に正確な式を導出することにより、補間点や過度パラメータ化状態ではなく、過度パラメータ化状態のピークでのサンプルワイドおよびパラメータワイドの二重降下を観測する。
さらに、サンプル回りの二重降下曲線のピークは、推定子のノルムに対する曲線のピークに対応し、リッジ正規化の強さである$\mu$を調整して、ピークの位置をシフトさせる。
このモデルではパラメータの2次降が小さな$\mu$ に対して起こることを観測する。
より大きい値の$\mu$ に対して、推定子のノルムの曲線はピークを持つが、一般化誤差のピークには変換されないことを観測する。
さらに,この問題に対するトレーニング誤差について検討した。
考慮された問題設定は、2つの正則化器間の相互作用を研究することができる。
入力データノイズ正規化器よりもリッジ正規化器を暗黙的に使用するという経験的証拠を提供する。
したがって、両正規化子は同じ量、すなわち推定子のノルムを正規化するが、それらは同値ではないことを示す。
関連論文リスト
- A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Ensemble linear interpolators: The role of ensembling [5.135730286836428]
補間器は不安定であり、例えば mininum $ell$ norm least square interpolator はノイズの多いデータを扱う際にテストエラーを示す。
本研究では,アンサンブルの安定性について検討し,個々の補間器のサンプル外予測リスクによって測定されたアンサンブルの非有界性能を向上する。
論文 参考訳(メタデータ) (2023-09-06T20:38:04Z) - The Implicit Bias of Batch Normalization in Linear Models and Two-layer
Linear Convolutional Neural Networks [117.93273337740442]
勾配勾配勾配は、exp(-Omega(log2 t))$収束率でトレーニングデータ上の一様マージン分類器に収束することを示す。
また、バッチ正規化はパッチワイドの均一なマージンに対して暗黙の偏りを持つことを示す。
論文 参考訳(メタデータ) (2023-06-20T16:58:00Z) - Batches Stabilize the Minimum Norm Risk in High Dimensional
Overparameterized Linear Regression [21.83136833217205]
バッチ分割は計算効率と性能のトレードオフとして有用であることを示す。
最小ノルム推定器の自然な小バッチ版を提案し、その2次リスクの上限を導出する。
我々の境界は、新しい手法の組み合わせ、特にランダム部分空間上の雑音射影のワッサーシュタイン計量の正規近似によって導かれる。
論文 参考訳(メタデータ) (2023-06-14T11:02:08Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Rao-Blackwellizing the Straight-Through Gumbel-Softmax Gradient
Estimator [93.05919133288161]
一般的なGumbel-Softmax推定器のストレートスルー変量の分散は、ラオ・ブラックウェル化により減少できることを示す。
これは平均二乗誤差を確実に減少させる。
これは分散の低減、収束の高速化、および2つの教師なし潜在変数モデルの性能向上につながることを実証的に実証した。
論文 参考訳(メタデータ) (2020-10-09T22:54:38Z) - Overparameterization and generalization error: weighted trigonometric
interpolation [4.631723879329972]
本研究では,未知のフーリエ係数を等価試料から推定するランダムフーリエ級数モデルについて検討する。
滑らかな補間物に対する偏りが、重み付き三角法一般化の形でどのようにしてより小さい一般化誤差をもたらすかを正確に示す。
論文 参考訳(メタデータ) (2020-06-15T15:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。