論文の概要: Stochastic Non-Smooth Convex Optimization with Unbounded Gradients
- arxiv url: http://arxiv.org/abs/2605.15522v1
- Date: Fri, 15 May 2026 01:43:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.143831
- Title: Stochastic Non-Smooth Convex Optimization with Unbounded Gradients
- Title(参考訳): 非有界勾配を用いた確率的非滑らか凸最適化
- Authors: Dmitry Kovalev,
- Abstract要約: 我々は,クリップされたAdamWが,SGDWやAdaGradといった他の一般的な最適化手法よりも理論的に優れていることを示す。
また,AdamWの指数的に重み付けされた蓄積の重要な役割を,単純な平均化とは対照的に確立する。
- 参考スコア(独自算出の注目度): 10.350093268971836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Much of the existing theory on first-order non-smooth optimization is built on a restrictive assumption that the gradients of the objective function are uniformly bounded. We introduce a much more realistic class of generalized Lipschitz functions, where the gradient norms are bounded by an affine function of the optimality gap. We then ask a natural question: what algorithm achieves the best global convergence rates for solving convex stochastic generalized Lipschitz optimization problems? To address this, we develop a new convergence analysis for several existing algorithms and find that AdamW with clipped updates, theoretically outperforms other popular stochastic optimization methods, such as SGD and AdaGrad. Moreover, our analysis establishes the critical role of AdamW's exponentially weighted gradient accumulation, as opposed to simple averaging. We further show that clipped AdamW is universal and achieves improved rates under the popular generalized smoothness assumption, analyze the convergence of clipped AdamW with diagonal and matrix preconditioners, and extend our results to the quasar-convex setting.
- Abstract(参考訳): 一階非滑らかな最適化に関する既存の理論の多くは、目的関数の勾配が一様有界であるという限定的な仮定に基づいている。
より現実的な一般化されたリプシッツ函数のクラスを導入し、勾配ノルムは最適性ギャップのアフィン函数によって有界となる。
凸確率一般化されたリプシッツ最適化問題を解くために、どのアルゴリズムが最良の大域収束率を達成するのか?
そこで我々は,いくつかの既存アルゴリズムに対する新しい収束解析を開発し,AdamWがクリッピングされた更新によって,SGDやAdaGradといった他の一般的な確率的最適化手法よりも優れていることを示す。
さらに,AdamWの指数的に重み付けされた勾配蓄積は,単純な平均化とは対照的に重要な役割を担っている。
さらに、クリップされたAdamWは普遍的であり、一般的な一般化された滑らか性仮定の下で改善率を達成することを示し、クリップされたAdamWを対角および行列プレコンディショナーで解析し、その結果を準凸設定に拡張する。
関連論文リスト
- Towards Weaker Variance Assumptions for Stochastic Optimization [19.339358874690568]
次数次法の2乗ノルムを最適化変数の2乗ノルムの2乗ノルムと同程度の速さで成長させることができるような勾配アルゴリズムを解析するための古典的な仮定を再検討する。
関数的制約や正規化された凸凹 min-max 問題を用いて凸問題を解析する。
実現可能な集合の有界性を必要としない最適度測度に対するレートを得る。
論文 参考訳(メタデータ) (2025-04-14T07:26:34Z) - Adaptive Gradient Normalization and Independent Sampling for (Stochastic) Generalized-Smooth Optimization [23.962901840695462]
既存のアルゴリズムは一般化された非滑らかな幾何学に完全に適応していないことを示す。
実験により,本アルゴリズムによるサンプリング問題の高速収束が示された。
論文 参考訳(メタデータ) (2024-10-17T21:52:00Z) - Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。
また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文 参考訳(メタデータ) (2023-04-27T06:27:37Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Convergence of adaptive algorithms for weakly convex constrained
optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。
我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文 参考訳(メタデータ) (2020-06-11T17:43:19Z) - The Strength of Nesterov's Extrapolation in the Individual Convergence
of Nonsmooth Optimization [0.0]
ネステロフの外挿は、非滑らかな問題に対して勾配降下法の個人収束を最適にする強さを持つことを証明している。
提案手法は,設定の非滑らかな損失を伴って正規化学習タスクを解くためのアルゴリズムの拡張である。
本手法は,大規模な1-正規化ヒンジロス学習問題の解法として有効である。
論文 参考訳(メタデータ) (2020-06-08T03:35:41Z) - Adaptive First-and Zeroth-order Methods for Weakly Convex Stochastic
Optimization Problems [12.010310883787911]
我々は、弱凸(おそらく非滑らかな)最適化問題の重要なクラスを解くための、適応的な段階的な新しい手法の族を解析する。
実験結果から,提案アルゴリズムが0次勾配降下と設計変動を経験的に上回ることを示す。
論文 参考訳(メタデータ) (2020-05-19T07:44:52Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。