論文の概要: Precise Learning Curves and Higher-Order Scaling Limits for Dot Product
Kernel Regression
- arxiv url: http://arxiv.org/abs/2205.14846v3
- Date: Mon, 12 Jun 2023 13:22:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 02:59:39.232106
- Title: Precise Learning Curves and Higher-Order Scaling Limits for Dot Product
Kernel Regression
- Title(参考訳): ドット製品カーネル回帰のための高精度学習曲線と高階スケーリング限界
- Authors: Lechao Xiao, Hong Hu, Theodor Misiakiewicz, Yue M. Lu, Jeffrey
Pennington
- Abstract要約: 本稿では,ドット積カーネルのカーネルリッジ回帰問題に焦点をあてる。
我々は、任意の整数$r$に対して$m approx dr/r!$が常に学習曲線のピークを観測し、複数のサンプルワイズと非自明な振る舞いを複数のスケールで達成する。
- 参考スコア(独自算出の注目度): 41.48538038768993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As modern machine learning models continue to advance the computational
frontier, it has become increasingly important to develop precise estimates for
expected performance improvements under different model and data scaling
regimes. Currently, theoretical understanding of the learning curves that
characterize how the prediction error depends on the number of samples is
restricted to either large-sample asymptotics ($m\to\infty$) or, for certain
simple data distributions, to the high-dimensional asymptotics in which the
number of samples scales linearly with the dimension ($m\propto d$). There is a
wide gulf between these two regimes, including all higher-order scaling
relations $m\propto d^r$, which are the subject of the present paper. We focus
on the problem of kernel ridge regression for dot-product kernels and present
precise formulas for the mean of the test error, bias, and variance, for data
drawn uniformly from the sphere with isotropic random labels in the $r$th-order
asymptotic scaling regime $m\to\infty$ with $m/d^r$ held constant. We observe a
peak in the learning curve whenever $m \approx d^r/r!$ for any integer $r$,
leading to multiple sample-wise descent and nontrivial behavior at multiple
scales.
- Abstract(参考訳): 現代の機械学習モデルが計算フロンティアを推し進めるにつれ、異なるモデルとデータスケーリング体制の下で期待されるパフォーマンス改善の正確な見積もりを開発することがますます重要になっている。
現在、予測誤差がサンプル数に依存することを特徴付ける学習曲線の理論的な理解は、大きなサンプル漸近(m\to\infty$)または特定の単純なデータ分布に対して、サンプル数が次元(m\propto d$)と線形にスケールする高次元漸近(high-dimensional asymptotics)に制限されている。
本論文の主題である高階スケーリング関係$m\propto d^r$を含む,この2つの状態の間には広い溝がある。
我々は,ドット製品カーネルのカーネルリッジ回帰の問題に注目し,r$th-order asymptotic scaling regime $m\to\infty$ with $m/d^r$ held constant において,等方性確率ラベルを持つ球面から一様に引き出されたデータに対するテスト誤差,バイアス,分散の平均の正確な公式を与える。
学習曲線のピークは、$m \approx d^r/r!
任意の整数$r$に対して$は、複数のサンプルワイド降下と複数のスケールでの非自明な振る舞いをもたらす。
関連論文リスト
- Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Unbiased Kinetic Langevin Monte Carlo with Inexact Gradients [0.8749675983608172]
動力学的ランゲヴィンダイナミクスに基づく後進手段の非バイアス化手法を提案する。
提案した推定器は偏りがなく、有限分散となり、中心極限定理を満たす。
以上の結果から、大規模アプリケーションでは、非バイアスアルゴリズムは「ゴールドスタンダード」なハミルトニアン・モンテカルロよりも2~3桁効率が良いことが示された。
論文 参考訳(メタデータ) (2023-11-08T21:19:52Z) - Probabilistic Unrolling: Scalable, Inverse-Free Maximum Likelihood
Estimation for Latent Gaussian Models [69.22568644711113]
我々は,モンテカルロサンプリングと反復線形解法を組み合わせた確率的アンローリングを導入し,行列逆転を回避した。
理論的解析により,解法の繰り返しによる解法の解法と逆転が最大値推定の勾配推定を高速化することを示した。
シミュレーションおよび実データ実験において、確率的アンロールは、モデル性能の損失を最小限に抑えながら、勾配EMよりも桁違いに高速な潜在ガウスモデルを学習することを示した。
論文 参考訳(メタデータ) (2023-06-05T21:08:34Z) - Sharp Asymptotics of Kernel Ridge Regression Beyond the Linear Regime [22.58196673815647]
カーネルリッジ回帰(KRR)は、サンプルサイズ$n$と基礎となる次元$d$のスケーリング関係に決定的に依存する多相パターンを示す。
我々は、KRRの学習曲線が、異なるスケーリング体制における特定のバイアス分散トレードオフにより、繊細な「二重降下」挙動を持つことを示す。
論文 参考訳(メタデータ) (2022-05-13T17:50:54Z) - $p$-Generalized Probit Regression and Scalable Maximum Likelihood
Estimation via Sketching and Coresets [74.37849422071206]
本稿では, 2次応答に対する一般化線形モデルである,$p$一般化プロビット回帰モデルについて検討する。
p$の一般化されたプロビット回帰に対する最大可能性推定器は、大容量データ上で$(1+varepsilon)$の係数まで効率的に近似できることを示す。
論文 参考訳(メタデータ) (2022-03-25T10:54:41Z) - Max-Linear Regression by Convex Programming [5.366354612549172]
我々は、最大線形回帰問題の推定器として、アンカーレグレッション(AR)によって与えられるスケーラブルな凸プログラムを定式化し、解析する。
以上の結果から, 対数係数まで, 正確な回復スケールについて, 十分な数のノイズのない観測結果が得られた。
論文 参考訳(メタデータ) (2021-03-12T00:55:54Z) - A Random Matrix Analysis of Random Fourier Features: Beyond the Gaussian
Kernel, a Precise Phase Transition, and the Corresponding Double Descent [85.77233010209368]
本稿では、データサンプルの数が$n$である現実的な環境で、ランダムフーリエ(RFF)回帰の正確さを特徴付けます。
この分析はまた、大きな$n,p,N$のトレーニングとテスト回帰エラーの正確な推定も提供する。
論文 参考訳(メタデータ) (2020-06-09T02:05:40Z) - A Precise High-Dimensional Asymptotic Theory for Boosting and
Minimum-$\ell_1$-Norm Interpolated Classifiers [3.167685495996986]
本稿では,分離可能なデータの強化に関する高精度な高次元理論を確立する。
統計モデルのクラスでは、ブースティングの普遍性誤差を正確に解析する。
また, 推力試験誤差と最適ベイズ誤差の関係を明示的に説明する。
論文 参考訳(メタデータ) (2020-02-05T00:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。