論文の概要: Asymptotics of Random Feature Regression Beyond the Linear Scaling
Regime
- arxiv url: http://arxiv.org/abs/2403.08160v1
- Date: Wed, 13 Mar 2024 00:59:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 16:22:53.224315
- Title: Asymptotics of Random Feature Regression Beyond the Linear Scaling
Regime
- Title(参考訳): 線形スケーリングを超えたランダム特徴回帰の漸近
例
- Authors: Hong Hu, Yue M. Lu, Theodor Misiakiewicz
- Abstract要約: 機械学習の最近の進歩は、トレーニングデータの近くにトレーニングされた過度にパラメータ化されたモデルを使用することによって達成されている。
モデル複雑性と一般化はパラメータ数$p$にどのように依存するか?
特に、RFRRは近似と一般化パワーの直感的なトレードオフを示す。
- 参考スコア(独自算出の注目度): 22.666759017118796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in machine learning have been achieved by using
overparametrized models trained until near interpolation of the training data.
It was shown, e.g., through the double descent phenomenon, that the number of
parameters is a poor proxy for the model complexity and generalization
capabilities. This leaves open the question of understanding the impact of
parametrization on the performance of these models. How does model complexity
and generalization depend on the number of parameters $p$? How should we choose
$p$ relative to the sample size $n$ to achieve optimal test error?
In this paper, we investigate the example of random feature ridge regression
(RFRR). This model can be seen either as a finite-rank approximation to kernel
ridge regression (KRR), or as a simplified model for neural networks trained in
the so-called lazy regime. We consider covariates uniformly distributed on the
$d$-dimensional sphere and compute sharp asymptotics for the RFRR test error in
the high-dimensional polynomial scaling, where $p,n,d \to \infty$ while $p/
d^{\kappa_1}$ and $n / d^{\kappa_2}$ stay constant, for all $\kappa_1 ,
\kappa_2 \in \mathbb{R}_{>0}$. These asymptotics precisely characterize the
impact of the number of random features and regularization parameter on the
test performance. In particular, RFRR exhibits an intuitive trade-off between
approximation and generalization power. For $n = o(p)$, the sample size $n$ is
the bottleneck and RFRR achieves the same performance as KRR (which is
equivalent to taking $p = \infty$). On the other hand, if $p = o(n)$, the
number of random features $p$ is the limiting factor and RFRR test error
matches the approximation error of the random feature model class (akin to
taking $n = \infty$). Finally, a double descent appears at $n= p$, a phenomenon
that was previously only characterized in the linear scaling $\kappa_1 =
\kappa_2 = 1$.
- Abstract(参考訳): 機械学習の最近の進歩は、トレーニングデータの補間近くまで訓練された過度なパラメータ化モデルを使用することによって達成されている。
例えば、二重降下現象を通じて、パラメータの数はモデルの複雑さと一般化能力の指標として不十分であることが示されている。
このことは、これらのモデルの性能に対するパラメトリゼーションの影響を理解するための問題を残している。
モデル複雑性と一般化はパラメータ数$p$にどのように依存するか?
最適なテストエラーを達成するために、サンプルサイズ$n$に対して$p$をどうやって選択すればよいか?
本稿では,ランダムな特徴リッジ回帰(RFRR)の例について検討する。
このモデルは、カーネルリッジ回帰(KRR)に対する有限ランク近似や、いわゆる遅延状態下で訓練されたニューラルネットワークの単純化モデルと見なすことができる。
高次元多項式スケーリングにおいて、$d$次元球面上に一様分布し、RFRRテスト誤差に対する鋭い漸近を計算し、$p,n,d \to \infty$ while $p/d^{\kappa_1}$および$n / d^{\kappa_2}$滞在定数をすべての$\kappa_1 , \kappa_2 \in \mathbb{R}_{>0}$に対して計算する。
これらの漸近性は、ランダムな特徴の数と正規化パラメータがテスト性能に与える影響を正確に特徴づける。
特に、RFRRは近似と一般化パワーの直感的なトレードオフを示す。
n = o(p)$ の場合、サンプルサイズ $n$ はボトルネックであり、RFRR は KRR と同じ性能を達成する(これは $p = \infty$ を取るのと同じ)。
一方、$p = o(n)$ の場合、ランダムな特徴数 $p$ は制限係数であり、RFRR テストエラーはランダムな特徴モデルクラスの近似誤差と一致する($n = \infty$ を取る必要がある)。
最後に、二重降下は$n=p$で現れるが、これは以前に線形スケーリング $\kappa_1 = \kappa_2 = 1$ でのみ特徴づけられた現象である。
関連論文リスト
- Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Effective Minkowski Dimension of Deep Nonparametric Regression: Function
Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。
本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文 参考訳(メタデータ) (2023-06-26T17:13:31Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Universality of empirical risk minimization [12.764655736673749]
例えば、$boldsymbol x_i inmathbbRp$ が特徴ベクトルで $y in mathbbR$ がラベルであるような i.d. サンプルからの教師付き学習を考える。
我々は$mathsfkによってパラメータ化される関数のクラスに対する経験的リスク普遍性について研究する。
論文 参考訳(メタデータ) (2022-02-17T18:53:45Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。
提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - Generalization error of random features and kernel methods:
hypercontractivity and kernel matrix concentration [19.78800773518545]
特徴空間 $mathbb RN$ におけるリッジ回帰と併用したランダム特徴量法の利用について検討する。
これは、カーネルリッジ回帰(KRR)の有限次元近似、またはいわゆる遅延訓練体制におけるニューラルネットワークの様式化されたモデルと見なすことができる。
論文 参考訳(メタデータ) (2021-01-26T06:46:41Z) - Estimating Stochastic Linear Combination of Non-linear Regressions
Efficiently and Scalably [23.372021234032363]
サブサンプルサイズが大きくなると、推定誤差が過度に犠牲になることを示す。
私たちの知る限りでは、線形テキスト+確率モデルが保証される最初の研究です。
論文 参考訳(メタデータ) (2020-10-19T07:15:38Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z) - Implicit Regularization of Random Feature Models [10.739602293023058]
ランダム特徴(RF)モデルとカーネルリッジ回帰(KRR)の関係について検討する。
平均RF予測器は有効リッジ$tildelambda$のKRR予測器に近いことを示す。
平均的な$lambda$-RF予測器と$tildelambda$-KRR予測器のテストエラーとの間には,極めてよい一致があることを実証的に見出した。
論文 参考訳(メタデータ) (2020-02-19T19:36:23Z) - Does generalization performance of $l^q$ regularization learning depend
on $q$? A negative example [19.945160684285003]
$lq$-regularizationは、機械学習と統計モデリングにおいて魅力的なテクニックであることが示されている。
0 infty$ に対するすべての $lq$ 推定子は、同様の一般化誤差境界が得られることを示す。
この発見は、あるモデリングの文脈において、$q$の選択が一般化能力に強い影響を与えることはないことを仮に示している。
論文 参考訳(メタデータ) (2013-07-25T00:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。