論文の概要: Average Gradient Outer Product in kernel regression provably recovers the central subspace for multi-index models
- arxiv url: http://arxiv.org/abs/2605.15082v1
- Date: Thu, 14 May 2026 17:05:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.967039
- Title: Average Gradient Outer Product in kernel regression provably recovers the central subspace for multi-index models
- Title(参考訳): カーネル回帰における平均勾配外積はマルチインデックスモデルの中央部分空間を確実に回復する
- Authors: Libin Zhu, Damek Davis, Dmitriy Drusvyatskiy, Maryam Fazel,
- Abstract要約: 学習した予測者がデータ中の有用な低次元を発見できる状況について検討するが、正確な予測に必要なサンプルは少ない。
具体的には、有限個のデータペアから$Uinmathbb times d$と$rll d$を持つマルチインデックス構造である$f*(x)=h(Ux)$を復元する問題を考察する。
低次$p$が全ての関連方向の予測を行う場合、サブスペースリカバリはより低いサンプルレジーム$nasymp dp+で発生することを示す。
- 参考スコア(独自算出の注目度): 21.46621487100042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a prototypical situation when a learned predictor can discover useful low-dimensional structure in data, while using fewer samples than are needed for accurate prediction. Specifically, we consider the problem of recovering a multi-index polynomial $f^*(x)=h(Ux)$, with $U\in\mathbb{R}^{r\times d}$ and $r\ll d$, from finitely many data/label pairs. Importantly, the target function depends on input $x$ only through the projection onto an unknown $r$-dimensional central subspace. The algorithm we analyze is appealingly simple: fit kernel ridge regression (KRR) to the data and compute the Average Gradient Outer Product (AGOP) from the fitted predictor. Our main results show that under reasonable assumptions the top $r$-dimensional eigenspace of AGOP provably recovers the central subspace, even in regimes when the prediction error remains large. Specifically, if the target function $f^*$ has degree $p^*$, it is known that $n\asymp d^{p^*}$ samples are necessary for KRR to achieve accurate prediction. In contrast, we show that if a low degree $p$ component of $f^*$ already carries all relevant directions for prediction, subspace recovery occurs in the much lower sample regime $n\asymp d^{p+δ}$ for any $δ\in(0,1)$. Our results thus demonstrate a separation between prediction and representation, and provide an explanation for why iterative kernel methods such as Recursive Feature Machines (RFM) can be sample-efficient in practice.
- Abstract(参考訳): 学習した予測者がデータ中の有用な低次元構造を発見できるが、正確な予測に必要なサンプルは少ない。
具体的には、有限個のデータ/ラベル対から$U\in\mathbb{R}^{r\times d}$と$r\ll d$で多重インデックス多項式 $f^*(x)=h(Ux)$ を復元する問題を考察する。
重要なことに、ターゲット関数は、未知の$r$-次元中央部分空間への射影を通してのみ入力$x$に依存する。
データにカーネルリッジ回帰(KRR)を適合させ、適合した予測器から平均勾配外積(AGOP)を計算する。
本研究の主目的は,AGOP の高次元固有空間が,予測誤差が大きい状態でも確実に中央部分空間を復元できることである。
具体的には、ターゲット関数 $f^*$ が次数 $p^*$ を持つなら、KRR が正確な予測を達成するためには $n\asymp d^{p^*}$ サンプルが必要であることが知られている。
対照的に、$f^*$ の低次$p$成分が予測のすべての関連方向を既に持っている場合、サブスペース回復は任意の$δ\in(0,1)$に対してより低いサンプルレジーム $n\asymp d^{p+δ}$ で発生する。
本研究では,予測と表現の分離を実証し,再帰的特徴マシン (RFM) のような反復的カーネル手法が実際になぜサンプル効率が高いのかを説明する。
関連論文リスト
- Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の勾配勾配勾配学習問題について検討する。
SGDに基づくアルゴリズムにより最適化された2層ニューラルネットワークは、情報指数に支配されない複雑さで$f_*$を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Optimal Rates of Kernel Ridge Regression under Source Condition in Large
Dimensions [15.988264513040903]
そこで,カーネルリッジ回帰 (KRR) の大規模挙動について検討し,サンプルサイズ$n asymp dgamma$ for some $gamma > 0$について検討した。
以上の結果から,ガンマ$で変動する速度曲線は周期的台地挙動と多重降下挙動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-02T16:14:35Z) - Optimal Rate of Kernel Regression in Large Dimensions [13.641780902673792]
我々はまず,大次元データに対する上界と最小値下界のカーネル回帰を特徴付ける汎用ツールを構築する。
我々は、新しいツールを使用して、カーネル回帰の余剰リスクの最小値が$n-1/2$であることを示す。
論文 参考訳(メタデータ) (2023-09-08T11:29:05Z) - Effective Minkowski Dimension of Deep Nonparametric Regression: Function
Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。
本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文 参考訳(メタデータ) (2023-06-26T17:13:31Z) - Data Structures for Density Estimation [66.36971978162461]
p$のサブリニア数($n$)が与えられた場合、主な結果は$k$のサブリニアで$v_i$を識別する最初のデータ構造になります。
また、Acharyaなどのアルゴリズムの改良版も提供します。
論文 参考訳(メタデータ) (2023-06-20T06:13:56Z) - Statistical Learning under Heterogeneous Distribution Shift [71.8393170225794]
ground-truth predictor is additive $mathbbE[mathbfz mid mathbfx,mathbfy] = f_star(mathbfx) +g_star(mathbfy)$.
論文 参考訳(メタデータ) (2023-02-27T16:34:21Z) - Failure and success of the spectral bias prediction for Kernel Ridge
Regression: the case of low-dimensional data [0.28647133890966986]
一部のレジームでは、カーネルの固有基底上の真の関数 $f*$ を分解して、この方法がスペクトルバイアスを持つと予測している。
この予測は、画像などのベンチマークデータセットで非常にうまく機能するが、これらのアプローチがデータに対して行う仮定は、実際には満たされない。
論文 参考訳(メタデータ) (2022-02-07T16:48:14Z) - Truncated Linear Regression in High Dimensions [26.41623833920794]
truncated linear regression において、従属変数 $(A_i, y_i)_i$ は $y_i= A_irm T cdot x* + eta_i$ は固定された未知の興味ベクトルである。
目標は、$A_i$とノイズ分布に関するいくつかの好ましい条件の下で$x*$を回復することである。
我々は、$k$-sparse $n$-dimensional vectors $x*$ from $m$ truncated sample。
論文 参考訳(メタデータ) (2020-07-29T00:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。