論文の概要: Dimension free ridge regression
- arxiv url: http://arxiv.org/abs/2210.08571v1
- Date: Sun, 16 Oct 2022 16:01:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 21:24:33.978055
- Title: Dimension free ridge regression
- Title(参考訳): 次元自由リッジ回帰
- Authors: Chen Cheng, Andrea Montanari
- Abstract要約: 我々は、リッジ回帰のバイアスとばらつきの観点から、すなわちデータ上のリッジ回帰を再考し、等価なシーケンスモデルのバイアスとばらつきの観点から、リッジ回帰のバイアスとばらつきを考察する。
新しい応用として、定期的に変化するスペクトルを持つヒルベルト共変量に対して、完全に明示的で鋭い尾根回帰特性を得る。
- 参考スコア(独自算出の注目度): 12.906795470468484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Random matrix theory has become a widely useful tool in high-dimensional
statistics and theoretical machine learning. However, random matrix theory is
largely focused on the proportional asymptotics in which the number of columns
grows proportionally to the number of rows of the data matrix. This is not
always the most natural setting in statistics where columns correspond to
covariates and rows to samples. With the objective to move beyond the
proportional asymptotics, we revisit ridge regression ($\ell_2$-penalized least
squares) on i.i.d. data $(x_i, y_i)$, $i\le n$, where $x_i$ is a feature vector
and $y_i = \beta^\top x_i +\epsilon_i \in\mathbb{R}$ is a response. We allow
the feature vector to be high-dimensional, or even infinite-dimensional, in
which case it belongs to a separable Hilbert space, and assume either $z_i :=
\Sigma^{-1/2}x_i$ to have i.i.d. entries, or to satisfy a certain convex
concentration property. Within this setting, we establish non-asymptotic bounds
that approximate the bias and variance of ridge regression in terms of the bias
and variance of an `equivalent' sequence model (a regression model with
diagonal design matrix). The approximation is up to multiplicative factors
bounded by $(1\pm \Delta)$ for some explicitly small $\Delta$. Previously, such
an approximation result was known only in the proportional regime and only up
to additive errors: in particular, it did not allow to characterize the
behavior of the excess risk when this converges to $0$. Our general theory
recovers earlier results in the proportional regime (with better error rates).
As a new application, we obtain a completely explicit and sharp
characterization of ridge regression for Hilbert covariates with regularly
varying spectrum. Finally, we analyze the overparametrized near-interpolation
setting and obtain sharp `benign overfitting' guarantees.
- Abstract(参考訳): ランダム行列理論は高次元統計学や理論的機械学習において広く有用な道具となっている。
しかし、ランダム行列理論は、列の数がデータ行列の行数に比例して増加する比例漸近に主に焦点を当てている。
これは、列がサンプルの共変量や行に対応する統計において、必ずしも最も自然な設定ではない。
x_i$ は特徴ベクトルであり、$y_i = \beta^\top x_i +\epsilon_i \in\mathbb{r}$ は応答である。
特徴ベクトルを高次元、あるいは無限次元とし、その場合、それは分離可能なヒルベルト空間に属し、$z_i := \Sigma^{-1/2}x_i$ のいずれかを i.d. のエントリを持つか、あるいはある凸濃度特性を満たすように仮定する。
この設定では、「等価」なシーケンスモデル(対角行列を持つ回帰モデル)のバイアスと分散の観点から、リッジ回帰のバイアスと分散を近似する非漸近境界を確立する。
近似は、いくつかの明示的な小さな$\Delta$に対して、$(1\pm \Delta)$で有界な乗法的因子である。
以前は、このような近似結果は比例法でのみ知られ、加法誤差のみしか知られていなかった:特に、0$ に収束したとき、過剰なリスクの挙動を特徴付けることは許されなかった。
我々の一般的な理論は、(より良い誤差率で)比例規則で以前の結果を回復する。
新しい応用として、周期的に変化するスペクトルを持つヒルベルト共変量に対するリッジ回帰の完全明示的かつ鋭い特徴付けを得る。
最後に、過パラメータ近似補間設定を分析し、鋭い'良性オーバーフィッティング'保証を得る。
関連論文リスト
- Local minima of the empirical risk in high dimension: General theorems and convex examples [8.748904058015574]
我々は、データベクトル$mathbfxi$が$d-最小化であるような高次元経験的リスクの一般的なモデルを考える。
我々は推定誤差と予測誤差に基づいてシャープを導出する。
論文 参考訳(メタデータ) (2025-02-04T03:02:24Z) - Highly Adaptive Ridge [84.38107748875144]
直交可積分な部分微分を持つ右連続函数のクラスにおいて,$n-2/3$自由次元L2収束率を達成する回帰法を提案する。
Harは、飽和ゼロオーダーテンソル積スプライン基底展開に基づいて、特定のデータ適応型カーネルで正確にカーネルリッジレグレッションを行う。
我々は、特に小さなデータセットに対する最先端アルゴリズムよりも経験的性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:06:06Z) - Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - PRIMO: Private Regression in Multiple Outcomes [2.900810893770134]
我々は、PRIMO(Private Regression in Multiple Outcomes)と呼ばれる新しいプライベートレグレッション設定を導入する。
PRIMOは、プライバシを保持しながら、データアナリストが$l$のレグレッションを実行したいという一般的な状況にインスパイアされている。
理論が予測するよりもはるかに小さい$l$の値であっても、射影法は射影を使わない変種と比較して精度を向上させる。
論文 参考訳(メタデータ) (2023-03-07T19:32:13Z) - $p$-Generalized Probit Regression and Scalable Maximum Likelihood
Estimation via Sketching and Coresets [74.37849422071206]
本稿では, 2次応答に対する一般化線形モデルである,$p$一般化プロビット回帰モデルについて検討する。
p$の一般化されたプロビット回帰に対する最大可能性推定器は、大容量データ上で$(1+varepsilon)$の係数まで効率的に近似できることを示す。
論文 参考訳(メタデータ) (2022-03-25T10:54:41Z) - Permuted and Unlinked Monotone Regression in $\mathbb{R}^d$: an approach
based on mixture modeling and optimal transport [4.924126492174802]
回帰関数の巡回的単調性の概念は、置換/無リンク回帰モデルにおける同定と推定に十分であることを示す。
我々は,Keefer-Wolfowitz に基づく,計算効率が良く,使いやすいアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-10T18:37:59Z) - Online nonparametric regression with Sobolev kernels [99.12817345416846]
我々は、ソボレフ空間のクラス上の後悔の上限を$W_pbeta(mathcalX)$, $pgeq 2, beta>fracdp$ とする。
上界は minimax regret analysis で支えられ、$beta> fracd2$ または $p=infty$ の場合、これらの値は(本質的に)最適である。
論文 参考訳(メタデータ) (2021-02-06T15:05:14Z) - Estimating Stochastic Linear Combination of Non-linear Regressions
Efficiently and Scalably [23.372021234032363]
サブサンプルサイズが大きくなると、推定誤差が過度に犠牲になることを示す。
私たちの知る限りでは、線形テキスト+確率モデルが保証される最初の研究です。
論文 参考訳(メタデータ) (2020-10-19T07:15:38Z) - Conditional Uncorrelation and Efficient Non-approximate Subset Selection
in Sparse Regression [72.84177488527398]
相関性の観点からスパース回帰を考察し,条件付き非相関式を提案する。
提案手法により、計算複雑性は、スパース回帰における各候補部分集合に対して$O(frac16k3+mk2+mkd)$から$O(frac16k3+frac12mk2)$に削減される。
論文 参考訳(メタデータ) (2020-09-08T20:32:26Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z) - Asymptotic errors for convex penalized linear regression beyond Gaussian
matrices [23.15629681360836]
雑音線形観測から係数ベクトル$x_0$ in$RN$を学習する問題を考察する。
平均二乗誤差に対する明示的な式を厳密に導出する。
我々の予測は、非常に適度なサイズであっても、数値と非常によく一致していることを示す。
論文 参考訳(メタデータ) (2020-02-11T13:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。