Fugu-MT 論文翻訳(概要): Solving Kernel Ridge Regression with Gradient-Based Optimization Methods

論文の概要: Solving Kernel Ridge Regression with Gradient-Based Optimization Methods

arxiv url: http://arxiv.org/abs/2306.16838v1
Date: Thu, 29 Jun 2023 10:29:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-30 13:46:36.775789
Title: Solving Kernel Ridge Regression with Gradient-Based Optimization Methods
Title（参考訳）: 勾配最適化法によるカーネルリッジ回帰の解法
Authors: Oskar Allerbo, Rebecka J\"ornsten
Abstract要約: 我々は,KRRの目的関数の等価な定式化を導入する。我々は、これらの罰則、およびそれに対応する勾配に基づく最適化アルゴリズムが、信号駆動型かつロバストな回帰解を生成する方法を理論的、実証的に示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Kernel ridge regression, KRR, is a non-linear generalization of linear ridge regression. Here, we introduce an equivalent formulation of the objective function of KRR, opening up both for using other penalties than the ridge penalty and for studying kernel ridge regression from the perspective of gradient descent. Using a continuous-time perspective, we derive a closed-form solution, kernel gradient flow, KGF, with regularization through early stopping, which allows us to theoretically bound the differences between KGF and KRR. We generalize KRR by replacing the ridge penalty with the $\ell_1$ and $\ell_\infty$ penalties and utilize the fact that analogously to the similarities between KGF and KRR, the solutions obtained when using these penalties are very similar to those obtained from forward stagewise regression (also known as coordinate descent) and sign gradient descent in combination with early stopping. Thus the need for computationally heavy proximal gradient descent algorithms can be alleviated. We show theoretically and empirically how these penalties, and corresponding gradient-based optimization algorithms, produce signal-driven and robust regression solutions, respectively. We also investigate kernel gradient descent where the kernel is allowed to change during training, and theoretically address the effects this has on generalization. Based on our findings, we propose an update scheme for the bandwidth of translational-invariant kernels, where we let the bandwidth decrease to zero during training, thus circumventing the need for hyper-parameter selection. We demonstrate on real and synthetic data how decreasing the bandwidth during training outperforms using a constant bandwidth, selected by cross-validation and marginal likelihood maximization. We also show that using a decreasing bandwidth, we are able to achieve both zero training error and a double descent behavior.
Abstract（参考訳）: カーネルリッジ回帰 (kernel ridge regression, krr) は線形リッジ回帰の非線形一般化である。本稿では,krrの目的関数の等価な定式化について紹介し,リッジペナルティ以外のペナルティの使用と,勾配降下の観点からカーネルリッジ回帰の研究を両立させる。連続時間の観点から、KGFとKRRの違いを理論的に拘束できるような、早期停止による正規化を伴う閉形式解、カーネル勾配流、KGFを導出する。リッジペナルティを$\ell_1$と$\ell_\infty$ペナルティに置き換えることでKRRを一般化し、KGFとKRRの類似性と同様、これらのペナルティを用いて得られる解は、早期停止と組み合わせて前方回帰(座標降下)および符号勾配降下から得られるものと非常によく似ているという事実を利用する。したがって、計算的に重い近位勾配勾配アルゴリズムの必要性が軽減される。これらの罰則とそれに対応する勾配に基づく最適化アルゴリズムは,それぞれ信号駆動型およびロバスト回帰解を生成する。また、カーネルがトレーニング中に変化することを許すカーネル勾配勾配について検討し、これが一般化に与える影響を理論的に解決する。そこで本研究では,トランスレーショナル不変カーネルの帯域幅の更新方式を提案し,トレーニング中の帯域幅をゼロにすることで,ハイパーパラメータ選択の必要性を回避する。実データおよび合成データにおいて,トレーニング中の帯域幅が,クロスバリデーションと限界確率最大化によって選択された一定帯域幅を用いていかに減少するかを実証する。また、帯域幅を小さくすることで、ゼロトレーニングエラーとダブル降下動作の両方を実現できることを示す。

関連論文リスト

Generalized Gradient Norm Clipping & Non-Euclidean $(L_0,L_1)$-Smoothness [51.302674884611335]
本研究は、急勾配と条件勾配のアプローチを組み合わせることでノルムクリッピングを一般化するハイブリッド非ユークリッド最適化手法を提案する。本稿では、ディープラーニングのためのアルゴリズムのインスタンス化について論じ、画像分類と言語モデリングにおけるそれらの特性を実証する。
論文参考訳（メタデータ） (2025-06-02T17:34:29Z)
Learning Curves of Stochastic Gradient Descent in Kernel Regression [7.063108005500741]
我々は、ソース条件下でのカーネル回帰において、シングルパスグラディエントDescent (SGD) を解析する。驚くべきことに、SGD はすべてのスケールで最大 min-max の最適速度を達成する。 SGDが飽和の呪いを克服する主な理由は、指数関数的に減衰するステップサイズスケジュールである。
論文参考訳（メタデータ） (2025-05-28T07:16:11Z)
Highly Adaptive Ridge [84.38107748875144]
直交可積分な部分微分を持つ右連続函数のクラスにおいて,$n-2/3$自由次元L2収束率を達成する回帰法を提案する。 Harは、飽和ゼロオーダーテンソル積スプライン基底展開に基づいて、特定のデータ適応型カーネルで正確にカーネルリッジレグレッションを行う。我々は、特に小さなデータセットに対する最先端アルゴリズムよりも経験的性能が優れていることを示す。
論文参考訳（メタデータ） (2024-10-03T17:06:06Z)
Stochastic gradient descent for streaming linear and rectified linear systems with Massart noise [9.841406613646813]
我々は,SGD-expを最大50%のMassart汚職率で真のパラメータにほぼ線形収束する新しい保証を示す。これはストリーミング環境での堅牢なReLU回帰に対する初めての収束保証結果である。
論文参考訳（メタデータ） (2024-03-02T12:45:01Z)
Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。本稿では,直感的に設計を記述し,設計選択について説明する。本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文参考訳（メタデータ） (2023-10-31T16:15:13Z)
Gradient Descent Converges Linearly for Logistic Regression on Separable Data [17.60502131429094]
変動学習率による勾配勾配降下は損失$f(x) leq 1.1 cdot f(x*) + epsilon$ロジスティック回帰目標を示す。また、ロジスティックなレグレッションを緩やかなレグレッションに適用し、スペルシ・エラーのトレードオフを指数関数的に改善する。
論文参考訳（メタデータ） (2023-06-26T02:15:26Z)
Near Optimal Private and Robust Linear Regression [47.2888113094367]
本稿では,2つのアルゴリズムを改良したDP-SGDアルゴリズムを提案する。ラベル破壊の下では、これは$(varepsilon,delta)$-DPとロバスト性の両方を保証する最初の効率的な線形回帰アルゴリズムである。
論文参考訳（メタデータ） (2023-01-30T20:33:26Z)
Hardness and Algorithms for Robust and Sparse Optimization [17.842787715567436]
スパース線形回帰やロバスト線形回帰といったスパース最適化問題に対するアルゴリズムと制限について検討する。具体的には、スパース線型回帰問題は$k$-スパースベクトル$xinmathbbRd$を求め、$|Ax-b|$を最小化する。頑健な線形回帰問題は、少なくとも$k$行を無視する集合$S$と、$|(Ax-b)_S|$を最小化するベクトル$x$を求める。
論文参考訳（メタデータ） (2022-06-29T01:40:38Z)
High-dimensional Asymptotics of Feature Learning: How One Gradient Step Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文参考訳（メタデータ） (2022-05-03T12:09:59Z)
Improved Convergence Rates for Sparse Approximation Methods in Kernel-Based Learning [48.08663378234329]
カーネル・リッジ・レグレッションやガウシアン・プロセスのようなカーネル・ベース・モデルは機械学習の応用においてユビキタスである。既存のスパース近似法は計算コストを大幅に削減することができる。我々は,Nystr"om法と疎変動ガウス過程近似法に対して,新しい信頼区間を提供する。
論文参考訳（メタデータ） (2022-02-08T17:22:09Z)
High-probability Bounds for Non-Convex Stochastic Optimization with Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文参考訳（メタデータ） (2021-06-28T00:17:01Z)
Online nonparametric regression with Sobolev kernels [99.12817345416846]
我々は、ソボレフ空間のクラス上の後悔の上限を$W_pbeta(mathcalX)$, $pgeq 2, beta>fracdp$ とする。上界は minimax regret analysis で支えられ、$beta> fracd2$ または $p=infty$ の場合、これらの値は(本質的に)最適である。
論文参考訳（メタデータ） (2021-02-06T15:05:14Z)
A Bregman Method for Structure Learning on Sparse Directed Acyclic Graphs [84.7328507118758]
構造学習のためのBregman近位勾配法を開発した。高い非線形反復に対する曲率の影響を計測する。様々な合成および実集合上で本手法をテストする。
論文参考訳（メタデータ） (2020-11-05T11:37:44Z)
Early stopping and polynomial smoothing in regression with reproducing kernels [2.0411082897313984]
再生カーネルヒルベルト空間(RKHS)における反復学習アルゴリズムの早期停止問題について検討する。本稿では,いわゆる最小不一致原理に基づく検証セットを使わずに早期停止を行うデータ駆動型ルールを提案する。提案したルールは、異なるタイプのカーネル空間に対して、ミニマックス最適であることが証明されている。
論文参考訳（メタデータ） (2020-07-14T05:27:18Z)
Optimal Rates of Distributed Regression with Imperfect Kernels [0.0]
本研究では,分散カーネルの分散化について,分割法と分割法を用いて検討する。ノイズフリー環境では,カーネルリッジ回帰がN-1$よりも高速に実現できることを示す。
論文参考訳（メタデータ） (2020-06-30T13:00:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。