論文の概要: Non-Euclidean SGD for Structured Optimization: Unified Analysis and Improved Rates
- arxiv url: http://arxiv.org/abs/2511.11466v1
- Date: Fri, 14 Nov 2025 16:38:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.724627
- Title: Non-Euclidean SGD for Structured Optimization: Unified Analysis and Improved Rates
- Title(参考訳): 構造最適化のための非ユークリッドSGD:統一解析と改善率
- Authors: Dmitry Kovalev, Ekaterina Borodich,
- Abstract要約: 構造的滑らかさと勾配雑音仮定に基づく新しい統合収束解析法を開発した。
我々は,非ユークリッドSGDがヘッセンおよび勾配雑音上の上界の疎度や低ランク構造を利用することを示す。
- 参考スコア(独自算出の注目度): 9.98884634301032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, several instances of non-Euclidean SGD, including SignSGD, Lion, and Muon, have attracted significant interest from the optimization community due to their practical success in training deep neural networks. Consequently, a number of works have attempted to explain this success by developing theoretical convergence analyses. Unfortunately, these results cannot properly justify the superior performance of these methods, as they could not beat the convergence rate of vanilla Euclidean SGD. We resolve this important open problem by developing a new unified convergence analysis under the structured smoothness and gradient noise assumption. In particular, our results indicate that non-Euclidean SGD (i) can exploit the sparsity or low-rank structure of the upper bounds on the Hessian and gradient noise, (ii) can provably benefit from popular algorithmic tools such as extrapolation or momentum variance reduction, and (iii) can match the state-of-the-art convergence rates of adaptive and more complex optimization algorithms such as AdaGrad and Shampoo.
- Abstract(参考訳): 最近、SignSGD、Lion、Muonなどの非ユークリッドSGDのいくつかの例は、ディープニューラルネットワークのトレーニングで実際に成功したため、最適化コミュニティから大きな関心を集めている。
その結果、理論的収束解析を発達させることによって、この成功を説明しようとする研究がいくつかある。
残念なことに、これらの結果はバニラユークリッドSGDの収束率に勝てないため、これらの手法の優れた性能を適切に正当化できない。
我々は、構造的滑らかさと勾配雑音の仮定の下で、新しい統一収束解析を開発することで、この重要な開放問題を解決した。
特に, 非ユークリッドSGDが示唆された。
(i)ヘッセン及び勾配騒音上の上界の疎度または低ランク構造を利用することができる。
(ii)外挿や運動量分散の低減など,一般的なアルゴリズムツールの恩恵を確実に得ることができる。
3) AdaGrad や Shampoo のような適応的で複雑な最適化アルゴリズムの最先端の収束率と一致する。
関連論文リスト
- $ψ$DAG: Projected Stochastic Approximation Iteration for DAG Structure Learning [6.612096312467342]
Directed A Graphs (DAGs) の構造を学ぶことは、ノード数に応じてスケールする可能なグラフの巨大な検索空間のため、大きな課題となる。
近年の進歩は、微分可能指数関数性制約を取り入れた連続最適化タスクとしてこの問題を再定義している。
本稿では,SGD(Gradient Descent)に基づく最適化手法と統合した近似手法を用いて,DAGを学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T12:13:11Z) - Stability and convergence analysis of AdaGrad for non-convex optimization via novel stopping time-based techniques [17.34603953600226]
適応勾配(AdaGrad)は、ディープラーニングの強力なツールとして登場した。
AdaGradを包括的に分析し、文献の既存のギャップを埋める。
論文 参考訳(メタデータ) (2024-09-08T08:29:51Z) - AdaGrad under Anisotropic Smoothness [10.995979046710893]
本稿では,新しい異方性一般化された滑らか性仮定を提案し,これに対応するアダグラードの解析を行う。
異方的滑らかさと雑音条件下では、AdaGradはより良い次元依存度でより高速な収束を保証することができる。
論文 参考訳(メタデータ) (2024-06-21T15:29:31Z) - High-Probability Convergence for Composite and Distributed Stochastic Minimization and Variational Inequalities with Heavy-Tailed Noise [96.80184504268593]
グラデーション、クリッピングは、優れた高確率保証を導き出すアルゴリズムの鍵となる要素の1つである。
クリッピングは、合成および分散最適化の一般的な方法の収束を損なう可能性がある。
論文 参考訳(メタデータ) (2023-10-03T07:49:17Z) - Last-Iterate Convergence of Adaptive Riemannian Gradient Descent for Equilibrium Computation [52.73824786627612]
本稿では,テクスト幾何学的強単調ゲームに対する新たな収束結果を確立する。
我々のキーとなる結果は、RGDがテクスト幾何学的手法で最終定位線形収束を実現することを示しています。
全体として、ユークリッド設定を超えるゲームに対して、幾何学的に非依存な最終点収束解析を初めて提示する。
論文 参考訳(メタデータ) (2023-06-29T01:20:44Z) - Efficient Methods for Structured Nonconvex-Nonconcave Min-Max
Optimization [98.0595480384208]
定常点に収束する一般化外空間を提案する。
このアルゴリズムは一般の$p$ノルド空間だけでなく、一般の$p$次元ベクトル空間にも適用される。
論文 参考訳(メタデータ) (2020-10-31T21:35:42Z) - A Dynamical Systems Approach for Convergence of the Bayesian EM
Algorithm [59.99439951055238]
我々は、(離散時間)リアプノフ安定性理論が、必ずしも勾配ベースではない最適化アルゴリズムの分析(および潜在的な設計)において、いかに強力なツールとして役立つかを示す。
本稿では,不完全データベイズフレームワークにおけるパラメータ推定を,MAP-EM (maximum a reari expectation-maximization) と呼ばれる一般的な最適化アルゴリズムを用いて行うことに着目したML問題について述べる。
高速収束(線形あるいは二次的)が達成され,S&Cアプローチを使わずに発表することが困難であった可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-23T01:34:18Z) - The Strength of Nesterov's Extrapolation in the Individual Convergence
of Nonsmooth Optimization [0.0]
ネステロフの外挿は、非滑らかな問題に対して勾配降下法の個人収束を最適にする強さを持つことを証明している。
提案手法は,設定の非滑らかな損失を伴って正規化学習タスクを解くためのアルゴリズムの拡張である。
本手法は,大規模な1-正規化ヒンジロス学習問題の解法として有効である。
論文 参考訳(メタデータ) (2020-06-08T03:35:41Z) - Second-Order Guarantees in Centralized, Federated and Decentralized
Nonconvex Optimization [64.26238893241322]
単純なアルゴリズムは、多くの文脈において優れた経験的結果をもたらすことが示されている。
いくつかの研究は、非最適化問題を研究するための厳密な分析的正当化を追求している。
これらの分析における重要な洞察は、摂動が局所的な降下アルゴリズムを許容する上で重要な役割を担っていることである。
論文 参考訳(メタデータ) (2020-03-31T16:54:22Z) - Nonconvex sparse regularization for deep neural networks and its
optimality [1.9798034349981162]
ディープニューラルネットワーク(DNN)推定器は、回帰と分類問題に対して最適な収束率を得ることができる。
スパースDNNに対する新たなペナル化推定法を提案する。
スパースペンタライズされた推定器は、様々な非パラメトリック回帰問題に対する最小収束率を適応的に達成できることを示す。
論文 参考訳(メタデータ) (2020-03-26T07:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。