論文の概要: Under-Parameterized Double Descent for Ridge Regularized Least Squares
Denoising of Data on a Line
- arxiv url: http://arxiv.org/abs/2305.14689v1
- Date: Wed, 24 May 2023 03:52:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 19:57:07.610602
- Title: Under-Parameterized Double Descent for Ridge Regularized Least Squares
Denoising of Data on a Line
- Title(参考訳): 線上のデータの最小二乗数を正規化したリッジの低パラメータ二重降下
- Authors: Rishi Sonthalia and Xinyue Li and Bochao Gu
- Abstract要約: このモデルに対して、パラメータワイドの2重降下が小さな$mu$に対して発生することを示す。
入力データノイズレギュレータよりもリッジレギュレータを使うことを暗黙的に好んでいるという実証的証拠を提供する。
- 参考スコア(独自算出の注目度): 3.437656066916039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The relationship between the number of training data points, the number of
parameters in a statistical model, and the generalization capabilities of the
model has been widely studied. Previous work has shown that double descent can
occur in the over-parameterized regime, and believe that the standard
bias-variance trade-off holds in the under-parameterized regime. In this paper,
we present a simple example that provably exhibits double descent in the
under-parameterized regime. For simplicity, we look at the ridge regularized
least squares denoising problem with data on a line embedded in high-dimension
space. By deriving an asymptotically accurate formula for the generalization
error, we observe sample-wise and parameter-wise double descent with the peak
in the under-parameterized regime rather than at the interpolation point or in
the over-parameterized regime.
Further, the peak of the sample-wise double descent curve corresponds to a
peak in the curve for the norm of the estimator, and adjusting $\mu$, the
strength of the ridge regularization, shifts the location of the peak. We
observe that parameter-wise double descent occurs for this model for small
$\mu$. For larger values of $\mu$, we observe that the curve for the norm of
the estimator has a peak but that this no longer translates to a peak in the
generalization error. Moreover, we study the training error for this problem.
The considered problem setup allows for studying the interaction between two
regularizers. We provide empirical evidence that the model implicitly favors
using the ridge regularizer over the input data noise regularizer. Thus, we
show that even though both regularizers regularize the same quantity, i.e., the
norm of the estimator, they are not equivalent.
- Abstract(参考訳): 学習データ点数、統計モデルにおけるパラメータ数、モデルの一般化能力との関係は広く研究されている。
従来の研究では、過度パラメータ化政権では二重降下が起こりうることが示されており、標準バイアス分散トレードオフは過度パラメータ化政権では成り立つと信じられていた。
本稿では、パラメータ下状態における二重降下を確実に示す簡単な例を示す。
単純性のために、高次元空間に埋め込まれた直線上のデータを用いて、リッジを正規化した最小二乗問題を考える。
一般化誤差の漸近的に正確な式を導出することにより、補間点や過度パラメータ化状態ではなく、過度パラメータ化状態のピークでのサンプルワイドおよびパラメータワイドの二重降下を観測する。
さらに、サンプル回りの二重降下曲線のピークは、推定子のノルムに対する曲線のピークに対応し、リッジ正規化の強さである$\mu$を調整して、ピークの位置をシフトさせる。
このモデルではパラメータの2次降が小さな$\mu$ に対して起こることを観測する。
より大きい値の$\mu$ に対して、推定子のノルムの曲線はピークを持つが、一般化誤差のピークには変換されないことを観測する。
さらに,この問題に対するトレーニング誤差について検討した。
考慮された問題設定は、2つの正則化器間の相互作用を研究することができる。
入力データノイズ正規化器よりもリッジ正規化器を暗黙的に使用するという経験的証拠を提供する。
したがって、両正規化子は同じ量、すなわち推定子のノルムを正規化するが、それらは同値ではないことを示す。
関連論文リスト
- A Sparsity Principle for Partially Observable Causal Representation Learning [28.25303444099773]
因果表現学習は、知覚データから高レベルの因果変数を特定することを目的としている。
我々は、インスタンスに依存した部分的可観測パターンを持つデータセットから、未確認の観測から学ぶことに集中する。
提案手法は,推定された表現の間隔を小さくすることで,基礎となる因果変数を推定する2つの手法である。
論文 参考訳(メタデータ) (2024-03-13T08:40:49Z) - Nonparametric Partial Disentanglement via Mechanism Sparsity: Sparse
Actions, Interventions and Sparse Temporal Dependencies [58.179981892921056]
この研究は、メカニズムのスパーシティ正則化(英語版)と呼ばれる、アンタングルメントの新たな原理を導入する。
本稿では,潜在要因を同時に学習することで,絡み合いを誘発する表現学習手法を提案する。
学習した因果グラフをスパースに規則化することにより、潜伏因子を復元できることを示す。
論文 参考訳(メタデータ) (2024-01-10T02:38:21Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - A Unified Analysis of Multi-task Functional Linear Regression Models
with Manifold Constraint and Composite Quadratic Penalty [0.0]
マルチタスク学習のパワーは、傾斜関数に付加的な構造を課すことによってもたらされる。
合成ペナルティは、多様体曲率の定量化に役立つ特定のノルムを誘導することを示す。
縮小ランクモデルとグラフラプラシア正規化モデルに統一収束上限を求め、特に適用する。
論文 参考訳(メタデータ) (2022-11-09T13:32:23Z) - Time varying regression with hidden linear dynamics [74.9914602730208]
線形力学系に従って未知のパラメータが進化することを前提とした時間変化線形回帰モデルを再検討する。
反対に、基礎となる力学が安定である場合、このモデルのパラメータは2つの通常の最小二乗推定と組み合わせることで、データから推定できることが示される。
論文 参考訳(メタデータ) (2021-12-29T23:37:06Z) - Estimation of Bivariate Structural Causal Models by Variational Gaussian
Process Regression Under Likelihoods Parametrised by Normalising Flows [74.85071867225533]
因果機構は構造因果モデルによって記述できる。
最先端の人工知能の大きな欠点の1つは、説明責任の欠如である。
論文 参考訳(メタデータ) (2021-09-06T14:52:58Z) - Doubly Robust Semiparametric Difference-in-Differences Estimators with
High-Dimensional Data [15.27393561231633]
不均一な治療効果を推定するための2段半パラメトリック差分差分推定器を提案する。
第1段階では、確率スコアを推定するために、一般的な機械学習手法が使用できる。
第2段階ではパラメトリックパラメータと未知関数の両方の収束率を導出する。
論文 参考訳(メタデータ) (2020-09-07T15:14:29Z) - Multiple Descent: Design Your Own Generalization Curve [46.47831396167738]
一般化曲線は任意の数のピークを持つことができ、さらにそれらのピークの位置を明示的に制御できることを示す。
この結果は、古典的なU字型一般化曲線と最近観測された2重降下曲線の両方がモデル族固有の性質ではないという事実を強調した。
論文 参考訳(メタデータ) (2020-08-03T17:22:21Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。