論文の概要: Safeguarded Stochastic Polyak Step Sizes for Non-smooth Optimization: Robust Performance Without Small (Sub)Gradients
- arxiv url: http://arxiv.org/abs/2512.02342v1
- Date: Tue, 02 Dec 2025 02:24:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.689863
- Title: Safeguarded Stochastic Polyak Step Sizes for Non-smooth Optimization: Robust Performance Without Small (Sub)Gradients
- Title(参考訳): 非滑らかな最適化のための保護された確率的ポリアークステップサイズ:小(下)勾配のないロバスト性能
- Authors: Dimitris Oikonomou, Nicolas Loizou,
- Abstract要約: 適応型ニューラルネットワークを提供するPolyakの消滅は、勾配降下(SGD)にとって有望な選択であることが証明された。
ディープネットワークに関する総合的な実験は、タイトな凸ネットワーク理論を腐食させる。
本研究では、強い仮定を必要とせず、非滑らかな最適化に対して厳密な収束保証を提供する。
- 参考スコア(独自算出の注目度): 16.39606116102731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The stochastic Polyak step size (SPS) has proven to be a promising choice for stochastic gradient descent (SGD), delivering competitive performance relative to state-of-the-art methods on smooth convex and non-convex optimization problems, including deep neural network training. However, extensions of this approach to non-smooth settings remain in their early stages, often relying on interpolation assumptions or requiring knowledge of the optimal solution. In this work, we propose a novel SPS variant, Safeguarded SPS (SPS$_{safe}$), for the stochastic subgradient method, and provide rigorous convergence guarantees for non-smooth convex optimization with no need for strong assumptions. We further incorporate momentum into the update rule, yielding equally tight theoretical results. Comprehensive experiments on convex benchmarks and deep neural networks corroborate our theory: the proposed step size accelerates convergence, reduces variance, and consistently outperforms existing adaptive baselines. Finally, in the context of deep neural network training, our method demonstrates robust performance by addressing the vanishing gradient problem.
- Abstract(参考訳): 確率的ポリアクステップサイズ(SPS)は確率的勾配降下(SGD)において有望な選択であることが証明されており、スムーズな凸および非凸最適化問題(ディープニューラルネットワークトレーニングを含む)における最先端の手法と競合する性能を提供する。
しかし、このアプローチの非滑らかな設定への拡張は、しばしば補間仮定や最適解の知識を頼りに、初期段階に留まる。
本研究では,確率的下次法に対する新しいSPS変種である Safeguarded SPS (SPS$_{safe}$) を提案し,強い仮定を必要とせず,非滑らか凸最適化に対する厳密な収束保証を提供する。
我々はさらにモーメントを更新規則に組み込み、理論上も同様に厳密な結果をもたらす。
提案されたステップサイズは収束を加速し、分散を減少させ、既存の適応ベースラインを一貫して上回る。
最後に、ディープニューラルネットワークトレーニングの文脈において、この手法は、消滅する勾配問題に対処することによって、堅牢な性能を示す。
関連論文リスト
- Closed-Form Last Layer Optimization [72.49151473937319]
正方形損失の下では、線形最終層重みに対する最適解は閉形式で知られている。
これは、バックボーン上の勾配降下ステップと最終層上のクローズドフォーム更新の交互に行われることを示す。
論文 参考訳(メタデータ) (2025-10-06T09:14:39Z) - Neural Network Training via Stochastic Alternating Minimization with Trainable Step Sizes [3.246129789918632]
ディープニューラルネットワークのトレーニングは本質的に非最適化問題である。
勾配降下(SGD)のような標準的なアプローチでは、パラメータを同時に更新する必要がある。
そこで本研究では,SAMTを用いた列車最小化手法を提案する。
SAMTは、最先端のメソッドに比べて、パラメータ更新が少なく、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2025-08-06T08:23:38Z) - Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。
ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。
ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文 参考訳(メタデータ) (2024-08-17T02:22:08Z) - Locally Adaptive Federated Learning [30.19411641685853]
フェデレートラーニング(Federated Learning)とは、複数のクライアントが中央サーバと協調してモデルを学習する分散機械学習のパラダイムである。
Federated Averaging (FedAvg)のような標準的なフェデレーション最適化手法は、クライアント間の一般化を保証する。
本稿では,各クライアント関数の局所的幾何情報を利用する局所的フェデレーション学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-12T17:02:32Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - The Role of Momentum Parameters in the Optimal Convergence of Adaptive
Polyak's Heavy-ball Methods [12.93796690939018]
適応型Polyak's Heavy-ball (HB) 法は最適な個人収束率を$O(frac1sqrtt)$とする。
新しい解析では,hb運動量とその時間的変動が凸最適化の高速化にどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-02-15T02:57:14Z) - On The Verification of Neural ODEs with Stochastic Guarantees [14.490826225393096]
時間連続型ニューラルネットワークの新興クラスであるneural odesは,グローバル最適化問題の集合を解いて検証できることを示す。
密なReachtubeを構築するための抽象化ベースのテクニックであるLagran Reachability(SLR)を紹介する。
論文 参考訳(メタデータ) (2020-12-16T11:04:34Z) - The Strength of Nesterov's Extrapolation in the Individual Convergence
of Nonsmooth Optimization [0.0]
ネステロフの外挿は、非滑らかな問題に対して勾配降下法の個人収束を最適にする強さを持つことを証明している。
提案手法は,設定の非滑らかな損失を伴って正規化学習タスクを解くためのアルゴリズムの拡張である。
本手法は,大規模な1-正規化ヒンジロス学習問題の解法として有効である。
論文 参考訳(メタデータ) (2020-06-08T03:35:41Z) - Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization [71.03797261151605]
適応性は現代最適化理論において重要であるが、研究されていない性質である。
提案アルゴリズムは,PL目標に対して既存のアルゴリズムよりも優れた性能を保ちながら,PL目標に対して最適な収束性を実現することを実証した。
論文 参考訳(メタデータ) (2020-02-13T05:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。