論文の概要: Derivatives of Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2405.15894v1
- Date: Fri, 24 May 2024 19:32:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 02:10:19.890414
- Title: Derivatives of Stochastic Gradient Descent
- Title(参考訳): 確率的グラディエント蛍光の誘導体
- Authors: Franck Iutzeler, Edouard Pauwels, Samuel Vaiter,
- Abstract要約: グラディエントDescent (SGD) の反復剤の誘導体の挙動について検討する。
元のSGDの収束によって摂動される異なる目的関数上の不正確なSGDによって駆動されることを示す。
具体的には、定常的なステップサイズでは、これらの導関数は解導関数を中心とするノイズボール内で安定化し、消滅したステップサイズでは$O(log(k)2 / k)$収束率を示すことを示した。
- 参考スコア(独自算出の注目度): 16.90974792716146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider stochastic optimization problems where the objective depends on some parameter, as commonly found in hyperparameter optimization for instance. We investigate the behavior of the derivatives of the iterates of Stochastic Gradient Descent (SGD) with respect to that parameter and show that they are driven by an inexact SGD recursion on a different objective function, perturbed by the convergence of the original SGD. This enables us to establish that the derivatives of SGD converge to the derivative of the solution mapping in terms of mean squared error whenever the objective is strongly convex. Specifically, we demonstrate that with constant step-sizes, these derivatives stabilize within a noise ball centered at the solution derivative, and that with vanishing step-sizes they exhibit $O(\log(k)^2 / k)$ convergence rates. Additionally, we prove exponential convergence in the interpolation regime. Our theoretical findings are illustrated by numerical experiments on synthetic tasks.
- Abstract(参考訳): 目的がパラメータに依存する確率的最適化問題を,例えばハイパーパラメータ最適化でよく見られるように考察する。
本研究では,SGD(Stochastic Gradient Descent, SGD)の導体の挙動をそのパラメータに対して検討し, 元のSGDの収束によって摂動される異なる目的関数上の不正確なSGD再帰によって駆動されることを示す。
これにより、SGDの微分が、目的が強く凸するたびに平均二乗誤差の観点から解写像の微分に収束することを確立することができる。
具体的には、定常的なステップサイズでは、これらの導関数は解導関数を中心とするノイズボール内で安定化し、消滅したステップサイズでは$O(\log(k)^2 / k)$収束率を示すことを示した。
さらに、補間系における指数収束を証明した。
本研究は, 合成課題に関する数値実験により考察した。
関連論文リスト
- Optimal estimators of cross-partial derivatives and surrogates of functions [0.0]
本稿では、これらの関数をランダム化点$N$で評価することにより、関数のすべての部分的微分のサロゲートを導入する。
NL$モデルランに基づく関連する推定器は、収束の最適な速度に達する。
このような結果は、i)感度指標の主および上界を計算し、i)微分に基づくANOVAシミュレーションにより、シミュレータのエミュレータや関数のサロゲートを導出する。
論文 参考訳(メタデータ) (2024-07-05T03:39:06Z) - Nonsmooth Implicit Differentiation: Deterministic and Stochastic Convergence Rates [34.81849268839475]
パラメトリックな非微分可縮写像の固定点の微分を効率的に計算する問題について検討する。
我々は、反復的分化(ITD)と近似的暗黙的分化(AID)の2つの一般的なアプローチを分析する。
我々はNSIDの収束率を確立し、スムーズな環境での最良の利用率を含む。
論文 参考訳(メタデータ) (2024-03-18T11:37:53Z) - Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。
勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。
得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文 参考訳(メタデータ) (2023-11-07T17:39:17Z) - Curvature-Independent Last-Iterate Convergence for Games on Riemannian
Manifolds [77.4346324549323]
本研究では, 多様体の曲率に依存しないステップサイズが, 曲率非依存かつ直線的最終点収束率を達成することを示す。
我々の知る限りでは、曲率非依存率や/または最終点収束の可能性はこれまでに検討されていない。
論文 参考訳(メタデータ) (2023-06-29T01:20:44Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Computing the Variance of Shuffling Stochastic Gradient Algorithms via
Power Spectral Density Analysis [6.497816402045099]
理論上の利点を持つ勾配降下(SGD)の2つの一般的な選択肢は、ランダムリシャッフル(SGDRR)とシャッフルオンス(SGD-SO)である。
本研究では,SGD,SGDRR,SGD-SOの定常変動について検討した。
論文 参考訳(メタデータ) (2022-06-01T17:08:04Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - On the Estimation of Derivatives Using Plug-in Kernel Ridge Regression
Estimators [4.392844455327199]
非パラメトリック回帰における単純なプラグインカーネルリッジ回帰(KRR)推定器を提案する。
我々は,提案した推定器の挙動を統一的に研究するために,非漸近解析を行う。
提案した推定器は、導関数の任意の順序に対するチューニングパラメータを同じ選択で最適収束率を達成する。
論文 参考訳(メタデータ) (2020-06-02T02:32:39Z) - Convergence rates and approximation results for SGD and its
continuous-time counterpart [16.70533901524849]
本稿では,非増加ステップサイズを有する凸勾配Descent (SGD) の完全理論的解析を提案する。
まず、結合を用いた不均一微分方程式(SDE)の解により、SGDを確実に近似できることを示す。
連続的手法による決定論的および最適化手法の最近の分析において, 連続過程の長期的挙動と非漸近的境界について検討する。
論文 参考訳(メタデータ) (2020-04-08T18:31:34Z) - SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for
Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。
我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文 参考訳(メタデータ) (2020-03-05T14:33:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。