論文の概要: Almost Sure Convergence for the Last Iterate of Stochastic Gradient Descent Schemes
- arxiv url: http://arxiv.org/abs/2507.07281v1
- Date: Wed, 09 Jul 2025 20:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.205137
- Title: Almost Sure Convergence for the Last Iterate of Stochastic Gradient Descent Schemes
- Title(参考訳): 確率的勾配Descent Schemesの最後の繰り返しに対するほぼ確実に収束する
- Authors: Marcel Hudiani,
- Abstract要約: 定数運動量$beta in (0, 1)$(FFw_t) - F_* = O(tp-1)$ を目的に対してほぼ確実に証明する。
また、(0, 1)$(FFw_t) - F_* = O(tp-1)$ の運動量を持つ Slog が目的に対してほぼ確実に成り立つことを証明している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the almost sure convergence rate for the last iterate of stochastic gradient descent (SGD) and stochastic heavy ball (SHB) in the parametric setting when the objective function $F$ is globally convex or non-convex whose gradient is $\gamma$-H\"{o}lder. Using only discrete Gronwall's inequality without Robbins-Siegmund theorem nor martingale convergence theory, we recover results for both SGD and SHB: $\min_{s\leq t} \|\nabla F(w_s)\|^2 = o(t^{p-1})$ for non-convex objectives and $F(w_t) - F_* = o(t^{2\gamma/(1+\gamma) \cdot \max(p-1,-2p+1)-\epsilon})$ for $\beta \in (0, 1)$ and $\min_{s \leq t} F(w_s) - F_* = o(t^{p-1})$ almost surely for convex objectives. In addition, we proved that SHB with constant momentum parameter $\beta \in (0, 1)$ attains a convergence rate of $F(w_t) - F_* = O(t^{\max(p-1,-2p+1)} \log^2 \frac{t}{\delta})$ with probability at least $1-\delta$ when $F$ is convex and $\gamma = 1$ and step size $\alpha_t = \Theta(t^{-p})$ with $p \in (\frac{1}{2}, 1)$.
- Abstract(参考訳): 対象関数 $F$ が大域凸あるいは非凸で勾配が$\gamma$-H\"{o}lder であるとき、パラメトリックな条件下で確率勾配降下 (SGD) と確率重球 (SHB) の最終繰り返しのほぼ確実に収束速度を調べた。
ロビンス=ジークムントの定理やマーチンゲール収束理論を使わずに離散グロンウォールの不等式のみを用いて、SGD と SHB のどちらに対しても結果を回復する: $\min_{s\leq t} \|\nabla F(w_s)\|^2 = o(t^{p-1})$ for non-convex objectives and $F(w_t) - F_* = o(t^{2\gamma/(1+\gamma) \cdot \max(p-1,-2p+1)-\epsilon})$ for $\beta \in (0, 1) および $\min_{s \leq t} F(w_s) - F_* = o(t^{p-1})$ for almost convex objectives。
さらに、定数運動量パラメータ $\beta \in (0, 1)$ が$F(w_t) - F_* = O(t^{\max(p-1,-2p+1)} \log^2 \frac{t}{\delta})$ の収束率を得ることを示した。
関連論文リスト
- Sharp Gap-Dependent Variance-Aware Regret Bounds for Tabular MDPs [54.28273395444243]
我々は,モノトニック値 Omega (MVP) アルゴリズムが,差分を考慮した差分依存残差境界を$tildeOleft(left(sum_Delta_h(s,a)>0 fracH2 log K land MathttVar_maxtextc$。
論文 参考訳(メタデータ) (2025-06-06T20:33:57Z) - On the $O(\frac{\sqrt{d}}{K^{1/4}})$ Convergence Rate of AdamW Measured by $\ell_1$ Norm [54.28350823319057]
本稿では、$ell_$ノルムで測定されたAdamWの収束率$frac1Ksum_k=1KEleft[|nabla f(xk)|_1right]leq O(fracsqrtdCK1/4)を確立する。
論文 参考訳(メタデータ) (2025-05-17T05:02:52Z) - On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its Momentum Extension Measured by $\ell_1$ Norm [54.28350823319057]
本稿では、RMSPropとその運動量拡張を考察し、$frac1Tsum_k=1Tの収束速度を確立する。
我々の収束率は、次元$d$を除くすべての係数に関して下界と一致する。
収束率は$frac1Tsum_k=1Tと類似していると考えられる。
論文 参考訳(メタデータ) (2024-02-01T07:21:32Z) - A qualitative difference between gradient flows of convex functions in
finite- and infinite-dimensional Hilbert spaces [2.7195102129095003]
凸対象関数に対する勾配流/勾配降下とボール/加速勾配降下の最適化について検討する。
ヒルベルト空間において、これは最適である:$f(x_t) - inf f$ は、モノトンが減少し$infty$で可積分である任意の関数と同じくらいゆっくりと$0$に崩壊することができる。
論文 参考訳(メタデータ) (2023-10-26T17:33:52Z) - Unique Games hardness of Quantum Max-Cut, and a conjectured
vector-valued Borell's inequality [6.621324975749854]
関数 $f:mathbbRn の -1, 1$ への雑音安定性は $f(boldsymbolx) cdot f(boldsymboly)$ の期待値であることを示す。
我々は $langle f(boldsymbolx), f(boldsymboly)rangle$ の期待値は、関数 $f(x) = x_leq k / Vert x_leq k / によって最小化されると予想する。
論文 参考訳(メタデータ) (2021-11-01T20:45:42Z) - On the Self-Penalization Phenomenon in Feature Selection [69.16452769334367]
カーネル群に基づく暗黙の空間性誘導機構について述べる。
アプリケーションとしては、この疎結合誘導機構を使用して、特徴選択に一貫性のあるアルゴリズムを構築します。
論文 参考訳(メタデータ) (2021-10-12T09:36:41Z) - Spiked Covariance Estimation from Modulo-Reduced Measurements [14.569322713960494]
我々は、ほとんどの方向において$bfu$と$nu=mathrmpoly(k)$に対して、$n=mathrmpoly(k)$測定を用いて、高い精度で$bfu$を推定するアルゴリズムを開発し、分析する。
数値実験により,非漸近的条件下でも良好な性能が得られた。
論文 参考訳(メタデータ) (2021-10-04T02:10:47Z) - Convergence Rate of the (1+1)-Evolution Strategy with Success-Based
Step-Size Adaptation on Convex Quadratic Functions [20.666734673282498]
1+1)-進化戦略(ES)と成功に基づくステップサイズ適応を一般凸二次関数で解析する。
1+1)-ES の収束速度は、一般凸二次函数上で明示的に厳密に導かれる。
論文 参考訳(メタデータ) (2021-03-02T09:03:44Z) - Optimal Mean Estimation without a Variance [103.26777953032537]
本研究では,データ生成分布の分散が存在しない環境での重み付き平均推定問題について検討する。
最小の信頼区間を$n,d,delta$の関数として得る推定器を設計する。
論文 参考訳(メタデータ) (2020-11-24T22:39:21Z) - On the Convergence of Langevin Monte Carlo: The Interplay between Tail
Growth and Smoothness [10.482805367361818]
リプシッツ勾配を持つポテンシャル、すなわち$beta=1$の場合、我々の速度は最もよく知られた依存性の速度を回復する。
この結果は、ターゲット分布において$nu_* = eff$、KL分割において$nu_*$に適用できる。
論文 参考訳(メタデータ) (2020-05-27T00:26:20Z) - Curse of Dimensionality on Randomized Smoothing for Certifiable
Robustness [151.67113334248464]
我々は、他の攻撃モデルに対してスムースな手法を拡張することは困難であることを示す。
我々はCIFARに関する実験結果を示し,その理論を検証した。
論文 参考訳(メタデータ) (2020-02-08T22:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。