論文の概要: Generalization error of spectral algorithms
- arxiv url: http://arxiv.org/abs/2403.11696v1
- Date: Mon, 18 Mar 2024 11:52:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 15:28:10.289622
- Title: Generalization error of spectral algorithms
- Title(参考訳): スペクトルアルゴリズムの一般化誤差
- Authors: Maksim Velikanov, Maxim Panov, Dmitry Yarotsky,
- Abstract要約: 我々は、$textitspectralアルゴリズムのファミリによるカーネルのトレーニングを、プロファイル$h(lambda)$で指定する。
一般化誤差は2つのデータモデルに対する学習プロファイル$h(lambda)$の関数として導出する。
- 参考スコア(独自算出の注目度): 17.93452027304691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The asymptotically precise estimation of the generalization of kernel methods has recently received attention due to the parallels between neural networks and their associated kernels. However, prior works derive such estimates for training by kernel ridge regression (KRR), whereas neural networks are typically trained with gradient descent (GD). In the present work, we consider the training of kernels with a family of $\textit{spectral algorithms}$ specified by profile $h(\lambda)$, and including KRR and GD as special cases. Then, we derive the generalization error as a functional of learning profile $h(\lambda)$ for two data models: high-dimensional Gaussian and low-dimensional translation-invariant model. Under power-law assumptions on the spectrum of the kernel and target, we use our framework to (i) give full loss asymptotics for both noisy and noiseless observations (ii) show that the loss localizes on certain spectral scales, giving a new perspective on the KRR saturation phenomenon (iii) conjecture, and demonstrate for the considered data models, the universality of the loss w.r.t. non-spectral details of the problem, but only in case of noisy observation.
- Abstract(参考訳): 近年,ニューラルネットワークとその関連カーネルの並列性から,カーネル手法の一般化の漸近的精度評価が注目されている。
しかしながら、先行研究は、カーネルリッジ回帰(KRR)によるトレーニングのためにそのような推定を導出する一方、ニューラルネットワークは通常、勾配降下(GD)で訓練される。
本研究では、プロファイル$h(\lambda)$で指定された$\textit{spectral algorithm}$のファミリーによるカーネルのトレーニングを検討し、特殊なケースとしてKRRとGDを含める。
次に、高次元ガウスモデルと低次元変換不変モデルという2つのデータモデルに対する学習プロファイル $h(\lambda)$ の関数として一般化誤差を導出する。
カーネルとターゲットのスペクトルに関するパワー・ローの仮定の下では、我々のフレームワークを使っています。
(i)ノイズとノイズレスの両方の観察に完全な損失漸近を与える
(II)特定のスペクトルスケールで損失が局在することを示し、KRR飽和現象の新しい視点を与える
(iii)予想し、考慮されたデータモデルに対して、損失 w.r.t. の非スペクトル的詳細の普遍性を示すが、ノイズのある観測の場合のみである。
関連論文リスト
- Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T10:19:27Z) - Generalization Error Curves for Analytic Spectral Algorithms under Power-law Decay [13.803850290216257]
本稿では,カーネル勾配勾配法における一般化誤差曲線の完全な特徴付けを行う。
ニューラル・タンジェント・カーネル理論により、これらの結果は広義のニューラルネットワークを訓練する際の一般化行動の理解を大幅に改善する。
論文 参考訳(メタデータ) (2024-01-03T08:00:50Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Asymptotics of Ridge Regression in Convolutional Models [26.910291664252973]
特定の高次元状態にある尾根推定器の推定誤差の正確な式を導出する。
畳み込みモデルに対する実験では, 二重降下現象を示し, 理論結果が実験と一致することを示した。
論文 参考訳(メタデータ) (2021-03-08T05:56:43Z) - Double-descent curves in neural networks: a new perspective using
Gaussian processes [9.153116600213641]
ニューラルネットワークの二重輝線曲線は、一般化誤差が最初にパラメータの増加とともに下降し、最適数のパラメータに達した後に成長する現象を記述している。
本稿では,ニューラルネットワークガウス過程カーネルのスペクトルの幅依存性として,経験的特徴共分散行列のスペクトル分布を特徴付けるために,ランダム行列理論の手法を用いる。
論文 参考訳(メタデータ) (2021-02-14T20:31:49Z) - Spectral Bias and Task-Model Alignment Explain Generalization in Kernel
Regression and Infinitely Wide Neural Networks [17.188280334580195]
トレーニングデータセットを越えた一般化は、マシンラーニングの主な目標である。
最近のディープニューラルネットワークの観測は、古典統計学の従来の知恵と矛盾している。
より多くのデータが、カーネルがノイズや表現できないときに一般化を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:53:11Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z) - Spectrum Dependent Learning Curves in Kernel Regression and Wide Neural
Networks [17.188280334580195]
トレーニングサンプル数の関数として,カーネル回帰の一般化性能に関する解析式を導出する。
我々の表現は、トレーニングとニューラルカーネル・タンジェント(NTK)によるカーネル回帰の等価性により、広いニューラルネットワークに適用される。
我々は、合成データとMNISTデータセットのシミュレーションを用いて、我々の理論を検証する。
論文 参考訳(メタデータ) (2020-02-07T00:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。