論文の概要: OptEMA: Adaptive Exponential Moving Average for Stochastic Optimization with Zero-Noise Optimality
- arxiv url: http://arxiv.org/abs/2603.09923v1
- Date: Tue, 10 Mar 2026 17:19:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.495619
- Title: OptEMA: Adaptive Exponential Moving Average for Stochastic Optimization with Zero-Noise Optimality
- Title(参考訳): OptEMA: ゼロノイズ最適性を用いた確率最適化のための適応指数移動平均
- Authors: Ganzhao Yuan,
- Abstract要約: 我々はOptEMAを導入し、OptEMA-MとOptEMA-Vの2つの新しい変種を分析した。
OptEMA は閉ループであり、その実効的な階段化は軌道依存であり、パラメータ化にリプシッツ定数を必要としないという意味でリプシッツ自由である。
どちらの変種も平均勾配ノルムに対して$widetildemathcalO(T-1/2+1/2 T-1/4)$の雑音適応収束率を得る。
- 参考スコア(独自算出の注目度): 23.28384210732827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Exponential Moving Average (EMA) is a cornerstone of widely used optimizers such as Adam. However, existing theoretical analyses of Adam-style methods have notable limitations: their guarantees can remain suboptimal in the zero-noise regime, rely on restrictive boundedness conditions (e.g., bounded gradients or objective gaps), use constant or open-loop stepsizes, or require prior knowledge of Lipschitz constants. To overcome these bottlenecks, we introduce OptEMA and analyze two novel variants: OptEMA-M, which applies an adaptive, decreasing EMA coefficient to the first-order moment with a fixed second-order decay, and OptEMA-V, which swaps these roles. Crucially, OptEMA is closed-loop and Lipschitz-free in the sense that its effective stepsizes are trajectory-dependent and do not require the Lipschitz constant for parameterization. Under standard stochastic gradient descent (SGD) assumptions, namely smoothness, a lower-bounded objective, and unbiased gradients with bounded variance, we establish rigorous convergence guarantees. Both variants achieve a noise-adaptive convergence rate of $\widetilde{\mathcal{O}}(T^{-1/2}+σ^{1/2} T^{-1/4})$ for the average gradient norm, where $σ$ is the noise level. In particular, in the zero-noise regime where $σ=0$, our bounds reduce to the nearly optimal deterministic rate $\widetilde{\mathcal{O}}(T^{-1/2})$ without manual hyperparameter retuning.
- Abstract(参考訳): 指数移動平均(英語: Exponential moving Average, EMA)は、アダムのような広く使われているオプティマイザの基盤である。
しかし、既存のアダムスタイルの方法の理論的な分析には顕著な制限がある:それらの保証はゼロノイズ系において最適に保たれ、制限付き有界性条件(例えば、有界勾配や目的ギャップ)に依存し、定数または開ループの段数を使い、あるいはリプシッツ定数の事前の知識を必要とする。
これらのボトルネックを克服するために,OptEMAを導入し,適応的かつ減少的なEMA係数を1次モーメントに適用するOPtEMA-Mと,これらの役割を置き換えるOPtEMA-Vという2つの新しい変種を解析する。
重要なことに、OptEMA は閉ループであり、その実効的なステップサイズは軌道依存であり、パラメータ化にリプシッツ定数を必要としないという意味ではリプシッツ自由である。
標準的な確率勾配勾配(SGD)の仮定、すなわち滑らかさ、下界の目的、および有界な分散を持つ不偏勾配の下で、厳密な収束保証を確立する。
どちらの変種も、平均勾配ノルムに対して$\widetilde{\mathcal{O}}(T^{-1/2}+σ^{1/2} T^{-1/4})$の雑音適応収束率を得る。
特に、$σ=0$のゼロノイズ系では、我々の境界は手動のハイパーパラメータ再構成なしでほぼ最適な決定論率$\widetilde{\mathcal{O}}(T^{-1/2})$に減少する。
関連論文リスト
- Fast and Large-Scale Unbalanced Optimal Transport via its Semi-Dual and Adaptive Gradient Methods [35.76482964927589]
エントロピーUOTの半二重定式化を解析し、適応勾配法に適合することを示す。
SGD法はこの局所曲率に適応し、$mathcalO(n/varepsilon T)$となる。
完全バッチ離散設定に対しては、勾配ステップサイズのみに依存する局所的滑らか度にほぼ密な上限を導出する。
論文 参考訳(メタデータ) (2026-02-11T09:57:30Z) - RanSOM: Second-Order Momentum with Randomized Scaling for Constrained and Unconstrained Optimization [1.3537117504260623]
Polyak's Heavy Ballのようなモメンタム法はディープネットワークのトレーニングの標準であるが、設定の曲率に起因したバイアスに悩まされている。
textbfRanSOMは、決定論的ステップサイズを、平均$_t$で分布から引き出されたランダム化ステップに置き換えることで、このバイアスを解消する統合フレームワークである。
我々はこのフレームワークを,制約のない最適化のための textbfRanSOM-E と制約のない最適化のための textbfRanSOM-B の2つのアルゴリズムでインスタンス化する。
論文 参考訳(メタデータ) (2026-02-06T16:09:36Z) - Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。
我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。
我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文 参考訳(メタデータ) (2024-10-21T22:40:42Z) - Distributionally Robust Optimization with Bias and Variance Reduction [9.341215359733601]
勾配に基づくアルゴリズムであるProspectは、スムーズな正規化損失に対する線形収束を享受していることを示す。
また、勾配法のようなベースラインよりも2~3$times$早く収束できることも示している。
論文 参考訳(メタデータ) (2023-10-21T00:03:54Z) - Optimal Extragradient-Based Bilinearly-Coupled Saddle-Point Optimization [116.89941263390769]
滑らかな凸凹凸結合型サドル点問題, $min_mathbfxmax_mathbfyF(mathbfx) + H(mathbfx,mathbfy)$ を考える。
漸進的勾配指数(AG-EG)降下指数アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2022-06-17T06:10:20Z) - A Stochastic Proximal Method for Nonsmooth Regularized Finite Sum
Optimization [7.014966911550542]
スパースサブ構造を検索するために,非滑らかな正規化を伴うディープニューラルネットワークをトレーニングする問題を考察する。
我々は、収束と最悪のケースの複雑さが勾配のリプシッツ定数の知識や近似なしで確立されるSR2と呼ばれる新しい解法を導出する。
CIFAR-10とCIFAR-100で訓練されたネットワークインスタンスの実験により、SR2はProxGENやProxSGDのような関連する手法よりも常に高い空間性と精度を達成することが示された。
論文 参考訳(メタデータ) (2022-06-14T00:28:44Z) - The Power of Adaptivity in SGD: Self-Tuning Step Sizes with Unbounded
Gradients and Affine Variance [46.15915820243487]
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
論文 参考訳(メタデータ) (2022-02-11T17:37:54Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Unified Convergence Analysis for Adaptive Optimization with Moving Average Estimator [75.05106948314956]
1次モーメントに対する大きな運動量パラメータの増大は適応的スケーリングに十分であることを示す。
また,段階的に減少するステップサイズに応じて,段階的に運動量を増加させるための洞察を与える。
論文 参考訳(メタデータ) (2021-04-30T08:50:24Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。