論文の概要: Learning Curves of Stochastic Gradient Descent in Kernel Regression
- arxiv url: http://arxiv.org/abs/2505.22048v1
- Date: Wed, 28 May 2025 07:16:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.464368
- Title: Learning Curves of Stochastic Gradient Descent in Kernel Regression
- Title(参考訳): カーネル回帰における確率勾配勾配の学習曲線
- Authors: Haihan Zhang, Weicheng Lin, Yuanshi Liu, Cong Fang,
- Abstract要約: 我々は、ソース条件下でのカーネル回帰において、シングルパスグラディエントDescent (SGD) を解析する。
驚くべきことに、SGD はすべてのスケールで最大 min-max の最適速度を達成する。
SGDが飽和の呪いを克服する主な理由は、指数関数的に減衰するステップサイズスケジュールである。
- 参考スコア(独自算出の注目度): 7.063108005500741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper considers a canonical problem in kernel regression: how good are the model performances when it is trained by the popular online first-order algorithms, compared to the offline ones, such as ridge and ridgeless regression? In this paper, we analyze the foundational single-pass Stochastic Gradient Descent (SGD) in kernel regression under source condition where the optimal predictor can even not belong to the RKHS, i.e. the model is misspecified. Specifically, we focus on the inner product kernel over the sphere and characterize the exact orders of the excess risk curves under different scales of sample sizes $n$ concerning the input dimension $d$. Surprisingly, we show that SGD achieves min-max optimal rates up to constants among all the scales, without suffering the saturation, a prevalent phenomenon observed in (ridge) regression, except when the model is highly misspecified and the learning is in a final stage where $n\gg d^{\gamma}$ with any constant $\gamma >0$. The main reason for SGD to overcome the curse of saturation is the exponentially decaying step size schedule, a common practice in deep neural network training. As a byproduct, we provide the \emph{first} provable advantage of the scheme over the iterative averaging method in the common setting.
- Abstract(参考訳): 本稿では、カーネル回帰における標準的問題として、一般的なオンライン一階アルゴリズムでトレーニングされた場合のモデル性能が、リッジやリッジレスレグレッションのようなオフラインのものと比較してどの程度優れているかを考える。
本稿では,RKHS に最適な予測器が属せざるを得ない源条件下で,カーネル回帰における基礎的な単一パス確率勾配(SGD)を解析する。
具体的には、内積核を球面上に集中させ、入力次元$d$に関するサンプルサイズの異なるスケールで余剰リスク曲線の正確な順序を特徴付ける。
意外なことに、SGD は飽和に苦しむことなく全てのスケールで最大 min-max の最適速度を達成するが、モデルが高度に不特定であり、学習が最終段階にある場合を除き、(リッジ) 回帰で観測される顕著な現象は、一定の$\gamma > 0$である。
SGDが飽和の呪いを克服する主な理由は、ディープニューラルネットワークトレーニングにおける一般的なプラクティスである指数関数的に崩壊するステップサイズスケジュールである。
副生成物として、共通環境における反復平均化法に対するスキームの証明可能な利点を提供する。
関連論文リスト
- Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Max-affine regression via first-order methods [7.12511675782289]
最大アフィンモデルは信号処理と統計学の応用においてユビキタスに現れる。
最大アフィン回帰に対する勾配降下(GD)とミニバッチ勾配降下(SGD)の非漸近収束解析を行った。
論文 参考訳(メタデータ) (2023-08-15T23:46:44Z) - Sampling from Gaussian Process Posteriors using Stochastic Gradient
Descent [43.097493761380186]
勾配アルゴリズムは線形系を解くのに有効な方法である。
最適値に収束しない場合であっても,勾配降下は正確な予測を導出することを示す。
実験的に、勾配降下は十分に大規模または不条件の回帰タスクにおいて最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-06-20T15:07:37Z) - Precise Learning Curves and Higher-Order Scaling Limits for Dot Product
Kernel Regression [41.48538038768993]
本稿では,ドット積カーネルのカーネルリッジ回帰問題に焦点をあてる。
我々は、任意の整数$r$に対して$m approx dr/r!$が常に学習曲線のピークを観測し、複数のサンプルワイズと非自明な振る舞いを複数のスケールで達成する。
論文 参考訳(メタデータ) (2022-05-30T04:21:31Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Early stopping and polynomial smoothing in regression with reproducing kernels [2.0411082897313984]
再生カーネルヒルベルト空間(RKHS)における反復学習アルゴリズムの早期停止問題について検討する。
本稿では,いわゆる最小不一致原理に基づく検証セットを使わずに早期停止を行うデータ駆動型ルールを提案する。
提案したルールは、異なるタイプのカーネル空間に対して、ミニマックス最適であることが証明されている。
論文 参考訳(メタデータ) (2020-07-14T05:27:18Z) - Least Squares Regression with Markovian Data: Fundamental Limits and
Algorithms [69.45237691598774]
マルコフ連鎖からデータポイントが依存しサンプリングされる最小二乗線形回帰問題について検討する。
この問題を$tau_mathsfmix$という観点から、鋭い情報理論のミニマックス下限を確立する。
本稿では,経験的リプレイに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T04:26:50Z) - SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for
Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。
我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文 参考訳(メタデータ) (2020-03-05T14:33:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。