論文の概要: Modified Loss of Momentum Gradient Descent: Fine-Grained Analysis
- arxiv url: http://arxiv.org/abs/2509.08483v1
- Date: Wed, 10 Sep 2025 10:47:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.392849
- Title: Modified Loss of Momentum Gradient Descent: Fine-Grained Analysis
- Title(参考訳): Momentum Gradient Descentの修正損失:微細粒化解析
- Authors: Matias D. Cattaneo, Boris Shigida,
- Abstract要約: 我々は, (0, 1)$ の固定運動量パラメータ $beta がメモリの指数的減衰をもたらすポリアック重球運動量 (HB) を用いて降下を分析する。
その結果,重球運動量を持つ勾配勾配勾配の主特性に新たな光を当て,他の最適化アルゴリズムの類似解析のためのロードマップを概説した。
- 参考スコア(独自算出の注目度): 2.8647133890966994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We analyze gradient descent with Polyak heavy-ball momentum (HB) whose fixed momentum parameter $\beta \in (0, 1)$ provides exponential decay of memory. Building on Kovachki and Stuart (2021), we prove that on an exponentially attractive invariant manifold the algorithm is exactly plain gradient descent with a modified loss, provided that the step size $h$ is small enough. Although the modified loss does not admit a closed-form expression, we describe it with arbitrary precision and prove global (finite "time" horizon) approximation bounds $O(h^{R})$ for any finite order $R \geq 2$. We then conduct a fine-grained analysis of the combinatorics underlying the memoryless approximations of HB, in particular, finding a rich family of polynomials in $\beta$ hidden inside which contains Eulerian and Narayana polynomials. We derive continuous modified equations of arbitrary approximation order (with rigorous bounds) and the principal flow that approximates the HB dynamics, generalizing Rosca et al. (2023). Approximation theorems cover both full-batch and mini-batch HB. Our theoretical results shed new light on the main features of gradient descent with heavy-ball momentum, and outline a road-map for similar analysis of other optimization algorithms.
- Abstract(参考訳): 固定運動量パラメータ $\beta \in (0, 1)$ が指数的メモリ減衰をもたらすポリアク重球運動量 (HB) を用いて勾配勾配を解析する。
Kovachki と Stuart (2021) 上に構築され、指数関数的に魅力的な不変多様体において、ステップサイズ $h$ が十分小さいことを仮定して、アルゴリズムが修正された損失を持つちょうど平らな勾配降下であることを証明した。
修正された損失は閉形式表現を含まないが、任意の精度で記述し、任意の有限位数$R \geq 2$に対して大域的(有限の「時間」水平線)近似境界が$O(h^{R})$であることを証明する。
次に、HBのメモリレス近似の根底にあるコンビネータの詳細な解析を行い、特にユーレアー多項式とナラヤナ多項式を含む内部に隠された$\beta$の多項式のリッチな族を見つける。
我々は、(厳密な境界を持つ)任意の近似順序の連続的な修正方程式と、HB力学を近似する主フローを導出し、Rosca et al (2023) を一般化する。
近似定理は、フルバッチ HB とミニバッチ HB の両方をカバーする。
我々の理論的結果は、重球運動量を伴う勾配降下の主な特徴について新たな光を当て、他の最適化アルゴリズムの類似した解析のためのロードマップを概説した。
関連論文リスト
- Nonasymptotic Analysis of Stochastic Gradient Descent with the Richardson-Romberg Extrapolation [22.652143194356864]
本研究では, 勾配勾配勾配(SGD)を一定のステップサイズで解くことで, 密接な凸と滑らかな問題を解く問題に対処する。
得られた推定子の平均二乗誤差を、反復数$n$に対して拡張する。
我々の分析は、時相マルコフ連鎖と見なされるSGDの特性に依存している。
論文 参考訳(メタデータ) (2024-10-07T15:02:48Z) - Inexact subgradient methods for semialgebraic functions [18.293072574300798]
機械学習における近似勾配の広範囲な適用を動機として, 永続的な誤差を受ける部分エクサクティヴな加算法について検討する。
我々の分析は、消滅と定常的なステップサイズ体制の両方に対処する。
論文 参考訳(メタデータ) (2024-04-30T12:47:42Z) - Optimal Extragradient-Based Bilinearly-Coupled Saddle-Point Optimization [116.89941263390769]
滑らかな凸凹凸結合型サドル点問題, $min_mathbfxmax_mathbfyF(mathbfx) + H(mathbfx,mathbfy)$ を考える。
漸進的勾配指数(AG-EG)降下指数アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2022-06-17T06:10:20Z) - Stochastic Zeroth order Descent with Structured Directions [10.604744518360464]
我々は, 有限差分法であるStructured Zeroth Order Descent (SSZD)を導入・解析し, 集合 $lleq d 方向の勾配を近似し, $d は周囲空間の次元である。
凸凸に対して、すべての$c1/2$に対して$O( (d/l) k-c1/2$)$ 上の関数の収束はほぼ確実に証明する。
論文 参考訳(メタデータ) (2022-06-10T14:00:06Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - Optimal and instance-dependent guarantees for Markovian linear stochastic approximation [47.912511426974376]
標準スキームの最後の繰り返しの2乗誤差に対して、$t_mathrmmix tfracdn$の非漸近境界を示す。
マルコフ雑音による政策評価について,これらの結果のまとめを導出する。
論文 参考訳(メタデータ) (2021-12-23T18:47:50Z) - Faster Convergence of Stochastic Gradient Langevin Dynamics for
Non-Log-Concave Sampling [110.88857917726276]
我々は,非log-concaveとなる分布のクラスからサンプリングするために,勾配ランゲヴィンダイナミクス(SGLD)の新たな収束解析を行う。
我々のアプローチの核心は、補助的時間反転型マルコフ連鎖を用いたSGLDのコンダクタンス解析である。
論文 参考訳(メタデータ) (2020-10-19T15:23:18Z) - Agnostic Learning of Halfspaces with Gradient Descent via Soft Margins [92.7662890047311]
勾配降下は、分類誤差$tilde O(mathsfOPT1/2) + varepsilon$ in $mathrmpoly(d,1/varepsilon)$ time and sample complexity.
論文 参考訳(メタデータ) (2020-10-01T16:48:33Z) - On Linear Stochastic Approximation: Fine-grained Polyak-Ruppert and
Non-Asymptotic Concentration [115.1954841020189]
The inequality and non-asymptotic properties of approximation procedure with Polyak-Ruppert averaging。
一定のステップサイズと無限大となる反復数を持つ平均的反復数に対する中心極限定理(CLT)を証明する。
論文 参考訳(メタデータ) (2020-04-09T17:54:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。