論文の概要: Universality of kernel random matrices and kernel regression in the quadratic regime
- arxiv url: http://arxiv.org/abs/2408.01062v1
- Date: Fri, 2 Aug 2024 07:29:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 14:17:04.742686
- Title: Universality of kernel random matrices and kernel regression in the quadratic regime
- Title(参考訳): 二次状態におけるカーネルランダム行列の普遍性とカーネル回帰
- Authors: Parthe Pandit, Zhichao Wang, Yizhe Zhu,
- Abstract要約: 本研究では、カーネルカーネルの回帰の研究を二次構造にまで拡張する。
我々は、元のカーネルランダム行列と二次カーネルランダム行列の差分に限定した作用素ノルム近似を確立する。
我々は、$n/d2$が非ゼロ定数に収束する二次状態におけるKRRの正確なトレーニングと一般化誤差を特徴づける。
- 参考スコア(独自算出の注目度): 18.51014786894174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Kernel ridge regression (KRR) is a popular class of machine learning models that has become an important tool for understanding deep learning. Much of the focus has been on studying the proportional asymptotic regime, $n \asymp d$, where $n$ is the number of training samples and $d$ is the dimension of the dataset. In this regime, under certain conditions on the data distribution, the kernel random matrix involved in KRR exhibits behavior akin to that of a linear kernel. In this work, we extend the study of kernel regression to the quadratic asymptotic regime, where $n \asymp d^2$. In this regime, we demonstrate that a broad class of inner-product kernels exhibit behavior similar to a quadratic kernel. Specifically, we establish an operator norm approximation bound for the difference between the original kernel random matrix and a quadratic kernel random matrix with additional correction terms compared to the Taylor expansion of the kernel functions. The approximation works for general data distributions under a Gaussian-moment-matching assumption with a covariance structure. This new approximation is utilized to obtain a limiting spectral distribution of the original kernel matrix and characterize the precise asymptotic training and generalization errors for KRR in the quadratic regime when $n/d^2$ converges to a non-zero constant. The generalization errors are obtained for both deterministic and random teacher models. Our proof techniques combine moment methods, Wick's formula, orthogonal polynomials, and resolvent analysis of random matrices with correlated entries.
- Abstract(参考訳): カーネルリッジ回帰(KRR)は機械学習モデルの一般的なクラスであり、ディープラーニングを理解するための重要なツールとなっている。
ここでは、$n$はトレーニングサンプルの数、$d$はデータセットの次元である。
この状態において、データ分布の一定の条件下では、KRRに関わるカーネルランダム行列は、線形カーネルと同様の振舞いを示す。
本研究では、カーネル回帰の研究を2次漸近状態に拡張し、$n \asymp d^2$とする。
本研究では,内積核の幅広いクラスが二次核と同様の挙動を示すことを示す。
具体的には、元のカーネル乱数行列と二次カーネル乱数行列との差に対する作用素ノルム近似を、カーネル関数のテイラー展開と比較して追加の補正項で確立する。
この近似は、ガウスモーメントマッチング仮定の下での一般データ分布と共分散構造に作用する。
この新たな近似を用いて、元のカーネル行列のスペクトル分布を制限し、$n/d^2$が非ゼロ定数に収束した場合の二次状態におけるKRRの正確な漸近的トレーニングと一般化誤差を特徴づける。
一般化誤差は、決定論的およびランダムな教師モデルの両方に対して得られる。
我々の証明手法はモーメント法, ウィックの公式, 直交多項式, および相関成分を持つランダム行列の分解能解析を組み合わせている。
関連論文リスト
- Highly Adaptive Ridge [84.38107748875144]
直交可積分な部分微分を持つ右連続函数のクラスにおいて,$n-2/3$自由次元L2収束率を達成する回帰法を提案する。
Harは、飽和ゼロオーダーテンソル積スプライン基底展開に基づいて、特定のデータ適応型カーネルで正確にカーネルリッジレグレッションを行う。
我々は、特に小さなデータセットに対する最先端アルゴリズムよりも経験的性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:06:06Z) - A non-asymptotic theory of Kernel Ridge Regression: deterministic equivalents, test error, and GCV estimator [7.163829696591103]
カーネルリッジ回帰を用いた未知のターゲット関数$f_*$の学習を検討する。
KRRのテスト誤差に対する非漸近的決定論的近似を確立した。
論文 参考訳(メタデータ) (2024-03-13T20:12:03Z) - Learning "best" kernels from data in Gaussian process regression. With
application to aerodynamics [0.4588028371034406]
本稿では,ガウス過程の回帰/クリギングサロゲートモデリング手法におけるカーネルの選択/設計アルゴリズムを紹介する。
アルゴリズムの最初のクラスはカーネルフローであり、機械学習の分類の文脈で導入された。
アルゴリズムの第2のクラスはスペクトル核リッジ回帰と呼ばれ、近似される関数のノルムが最小となるような「最良の」カーネルを選択することを目的としている。
論文 参考訳(メタデータ) (2022-06-03T07:50:54Z) - An Equivalence Principle for the Spectrum of Random Inner-Product Kernel
Matrices with Polynomial Scalings [21.727073594338297]
この研究は、機械学習と統計学の応用によって動機付けられている。
スケーリングシステムにおいて,これらのランダム行列の経験的分布の弱い限界を確立する。
我々の結果は、マルテンコ・パストゥル法と半円法の間の自由加法的畳み込みとして特徴づけられる。
論文 参考訳(メタデータ) (2022-05-12T18:50:21Z) - Test Set Sizing Via Random Matrix Theory [91.3755431537592]
本稿ではランダム行列理論の手法を用いて、単純な線形回帰に対して理想的なトレーニング-テストデータ分割を求める。
それは「理想」を整合性計量を満たすものとして定義し、すなわち経験的モデル誤差は実際の測定ノイズである。
本論文は,任意のモデルのトレーニングとテストサイズを,真に最適な方法で解決した最初の論文である。
論文 参考訳(メタデータ) (2021-12-11T13:18:33Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z) - Deformed semicircle law and concentration of nonlinear random matrices
for ultra-wide neural networks [29.03095282348978]
本稿では、$f(X)$に付随する2つの経験的カーネル行列のスペクトル分布の制限について検討する。
経験的カーネルによって誘導されるランダムな特徴回帰は、超広範体制下でのカーネル回帰の制限と同じ性能を達成することを示す。
論文 参考訳(メタデータ) (2021-09-20T05:25:52Z) - Fourier Sparse Leverage Scores and Approximate Kernel Learning [29.104055676527913]
我々はガウス測度とラプラス測度の両方の下でフーリエ関数のレバレッジスコアに新しい明示的な上限を証明した。
私たちの限界は、機械学習における2つの重要な応用によって動機付けられています。
論文 参考訳(メタデータ) (2020-06-12T17:25:39Z) - Linear Time Sinkhorn Divergences using Positive Features [51.50788603386766]
エントロピー正則化で最適な輸送を解くには、ベクトルに繰り返し適用される$ntimes n$ kernel matrixを計算する必要がある。
代わりに、$c(x,y)=-logdotpvarphi(x)varphi(y)$ ここで$varphi$は、地上空間から正のorthant $RRr_+$への写像であり、$rll n$である。
論文 参考訳(メタデータ) (2020-06-12T10:21:40Z) - A Random Matrix Analysis of Random Fourier Features: Beyond the Gaussian
Kernel, a Precise Phase Transition, and the Corresponding Double Descent [85.77233010209368]
本稿では、データサンプルの数が$n$である現実的な環境で、ランダムフーリエ(RFF)回帰の正確さを特徴付けます。
この分析はまた、大きな$n,p,N$のトレーニングとテスト回帰エラーの正確な推定も提供する。
論文 参考訳(メタデータ) (2020-06-09T02:05:40Z) - On Linear Stochastic Approximation: Fine-grained Polyak-Ruppert and
Non-Asymptotic Concentration [115.1954841020189]
The inequality and non-asymptotic properties of approximation procedure with Polyak-Ruppert averaging。
一定のステップサイズと無限大となる反復数を持つ平均的反復数に対する中心極限定理(CLT)を証明する。
論文 参考訳(メタデータ) (2020-04-09T17:54:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。