論文の概要: Almost Sure Convergence for the Last Iterate of Stochastic Gradient Descent Schemes
- arxiv url: http://arxiv.org/abs/2507.07281v1
- Date: Wed, 09 Jul 2025 20:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.205137
- Title: Almost Sure Convergence for the Last Iterate of Stochastic Gradient Descent Schemes
- Title(参考訳): 確率的勾配Descent Schemesの最後の繰り返しに対するほぼ確実に収束する
- Authors: Marcel Hudiani,
- Abstract要約: 定数運動量$beta in (0, 1)$(FFw_t) - F_* = O(tp-1)$ を目的に対してほぼ確実に証明する。
また、(0, 1)$(FFw_t) - F_* = O(tp-1)$ の運動量を持つ Slog が目的に対してほぼ確実に成り立つことを証明している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the almost sure convergence rate for the last iterate of stochastic gradient descent (SGD) and stochastic heavy ball (SHB) in the parametric setting when the objective function $F$ is globally convex or non-convex whose gradient is $\gamma$-H\"{o}lder. Using only discrete Gronwall's inequality without Robbins-Siegmund theorem nor martingale convergence theory, we recover results for both SGD and SHB: $\min_{s\leq t} \|\nabla F(w_s)\|^2 = o(t^{p-1})$ for non-convex objectives and $F(w_t) - F_* = o(t^{2\gamma/(1+\gamma) \cdot \max(p-1,-2p+1)-\epsilon})$ for $\beta \in (0, 1)$ and $\min_{s \leq t} F(w_s) - F_* = o(t^{p-1})$ almost surely for convex objectives. In addition, we proved that SHB with constant momentum parameter $\beta \in (0, 1)$ attains a convergence rate of $F(w_t) - F_* = O(t^{\max(p-1,-2p+1)} \log^2 \frac{t}{\delta})$ with probability at least $1-\delta$ when $F$ is convex and $\gamma = 1$ and step size $\alpha_t = \Theta(t^{-p})$ with $p \in (\frac{1}{2}, 1)$.
- Abstract(参考訳): 対象関数 $F$ が大域凸あるいは非凸で勾配が$\gamma$-H\"{o}lder であるとき、パラメトリックな条件下で確率勾配降下 (SGD) と確率重球 (SHB) の最終繰り返しのほぼ確実に収束速度を調べた。
ロビンス=ジークムントの定理やマーチンゲール収束理論を使わずに離散グロンウォールの不等式のみを用いて、SGD と SHB のどちらに対しても結果を回復する: $\min_{s\leq t} \|\nabla F(w_s)\|^2 = o(t^{p-1})$ for non-convex objectives and $F(w_t) - F_* = o(t^{2\gamma/(1+\gamma) \cdot \max(p-1,-2p+1)-\epsilon})$ for $\beta \in (0, 1) および $\min_{s \leq t} F(w_s) - F_* = o(t^{p-1})$ for almost convex objectives。
さらに、定数運動量パラメータ $\beta \in (0, 1)$ が$F(w_t) - F_* = O(t^{\max(p-1,-2p+1)} \log^2 \frac{t}{\delta})$ の収束率を得ることを示した。
関連論文リスト
- On the $O(\frac{\sqrt{d}}{K^{1/4}})$ Convergence Rate of AdamW Measured by $\ell_1$ Norm [54.28350823319057]
本稿では、$ell_$ノルムで測定されたAdamWの収束率$frac1Ksum_k=1KEleft[|nabla f(xk)|_1right]leq O(fracsqrtdCK1/4)を確立する。
論文 参考訳(メタデータ) (2025-05-17T05:02:52Z) - On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its Momentum Extension Measured by $\ell_1$ Norm [54.28350823319057]
本稿では、RMSPropとその運動量拡張を考察し、$frac1Tsum_k=1Tの収束速度を確立する。
我々の収束率は、次元$d$を除くすべての係数に関して下界と一致する。
収束率は$frac1Tsum_k=1Tと類似していると考えられる。
論文 参考訳(メタデータ) (2024-02-01T07:21:32Z) - A qualitative difference between gradient flows of convex functions in
finite- and infinite-dimensional Hilbert spaces [2.7195102129095003]
凸対象関数に対する勾配流/勾配降下とボール/加速勾配降下の最適化について検討する。
ヒルベルト空間において、これは最適である:$f(x_t) - inf f$ は、モノトンが減少し$infty$で可積分である任意の関数と同じくらいゆっくりと$0$に崩壊することができる。
論文 参考訳(メタデータ) (2023-10-26T17:33:52Z) - Convergence Rate of the (1+1)-Evolution Strategy with Success-Based
Step-Size Adaptation on Convex Quadratic Functions [20.666734673282498]
1+1)-進化戦略(ES)と成功に基づくステップサイズ適応を一般凸二次関数で解析する。
1+1)-ES の収束速度は、一般凸二次函数上で明示的に厳密に導かれる。
論文 参考訳(メタデータ) (2021-03-02T09:03:44Z) - Optimal Mean Estimation without a Variance [103.26777953032537]
本研究では,データ生成分布の分散が存在しない環境での重み付き平均推定問題について検討する。
最小の信頼区間を$n,d,delta$の関数として得る推定器を設計する。
論文 参考訳(メタデータ) (2020-11-24T22:39:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。