論文の概要: A unified convergence theory for adaptive first-order methods in the nonconvex case, including AdaNorm, full and diagonal AdaGrad, Shampoo and Muo
- arxiv url: http://arxiv.org/abs/2604.17423v1
- Date: Sun, 19 Apr 2026 13:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.519463
- Title: A unified convergence theory for adaptive first-order methods in the nonconvex case, including AdaNorm, full and diagonal AdaGrad, Shampoo and Muo
- Title(参考訳): AdaNorm, full and diagonal AdaGrad, Shampoo, Muoを含む非凸ケースにおける適応一階法に対する統一収束理論
- Authors: S. Gratton, Ph. L. Toint,
- Abstract要約: 非制約勾配に対する一階最適化アルゴリズムの統一フレームワークを提案する。
完全グローバル・オブ・コンバージェンス分析を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A unified framework for first-order optimization algorithms fornonconvex unconstrained optimization is proposed that uses adaptivelypreconditioned gradients and includes popular methods such as full anddiagonal AdaGrad, AdaNorm, as well as adpative variants of Shampoo andMuon. This framework also allows combining heterogeneous geometriesacross different groups of variables while preserving a unifiedconvergence analysis. A fully stochastic global rate-of-convergenceanalysis is conducted for all methods in the framework, with andwithout two types of momentum, using reasonable assumptions on thevariance of the gradient oracle and without assuming boundedstochastic gradients or small enough stepsize.
- Abstract(参考訳): 非凸非制約最適化のための一階最適化アルゴリズムのための統一フレームワークが提案され、適応的に条件付き勾配を使い、フル・対角 AdaGrad や AdaNorm などの一般的な手法、シャンプーとムーンの適応的な変種を含む。
このフレームワークはまた、統一収束解析を保ちながら、変数の異なるグループ間で異質なジオメトリを結合することを可能にする。
全体確率的大域的収束解析(英語版)は、勾配オラクルの分散に関する合理的な仮定を用い、境界確率的勾配や十分なステップサイズを仮定することなく、2種類の運動量を持ち、フレームワーク内の全てのメソッドに対して実施される。
関連論文リスト
- Generalized Gradient Norm Clipping & Non-Euclidean $(L_0,L_1)$-Smoothness [51.302674884611335]
本研究は、急勾配と条件勾配のアプローチを組み合わせることでノルムクリッピングを一般化するハイブリッド非ユークリッド最適化手法を提案する。
本稿では、ディープラーニングのためのアルゴリズムのインスタンス化について論じ、画像分類と言語モデリングにおけるそれらの特性を実証する。
論文 参考訳(メタデータ) (2025-06-02T17:34:29Z) - A Generalized Version of Chung's Lemma and its Applications [10.570672679063394]
我々はChung's lemmaの一般化バージョンを開発し、より一般的なステップサイズルールの族に対する単純な非漸近収束フレームワークを提供する。
解析の副産物として、指数的なステップサイズが目的関数の幾何学に適応し、基礎となる景観の正確な知識を必要とせずに最適な収束率を達成することができることを観察する。
論文 参考訳(メタデータ) (2024-06-09T04:25:10Z) - A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。
本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文 参考訳(メタデータ) (2024-05-24T21:09:19Z) - Convex and Non-convex Optimization Under Generalized Smoothness [69.69521650503431]
凸法と非最適化法の分析は、しばしばリプシッツ勾配を必要とし、この軌道による解析を制限する。
最近の研究は、非一様滑らか性条件を通した勾配設定を一般化している。
論文 参考訳(メタデータ) (2023-06-02T04:21:59Z) - A Unified Convergence Theorem for Stochastic Optimization Methods [4.94128206910124]
一連の統一最適化手法に対する収束結果の導出に使用される基本的な統一収束定理を提供する。
直接応用として、一般的な設定下での収束結果をほぼ確実に回復する。
論文 参考訳(メタデータ) (2022-06-08T14:01:42Z) - The Power of Adaptivity in SGD: Self-Tuning Step Sizes with Unbounded
Gradients and Affine Variance [46.15915820243487]
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
論文 参考訳(メタデータ) (2022-02-11T17:37:54Z) - Faster Algorithm and Sharper Analysis for Constrained Markov Decision
Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。
新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。
これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文 参考訳(メタデータ) (2021-10-20T02:57:21Z) - Stochastic Gradient Descent-Ascent and Consensus Optimization for Smooth
Games: Convergence Analysis under Expected Co-coercivity [49.66890309455787]
本稿では,SGDA と SCO の最終的な収束保証として,期待されるコヒーレンシティ条件を導入し,その利点を説明する。
定常的なステップサイズを用いた場合、両手法の線形収束性を解の近傍に証明する。
我々の収束保証は任意のサンプリングパラダイムの下で保たれ、ミニバッチの複雑さに関する洞察を与える。
論文 参考訳(メタデータ) (2021-06-30T18:32:46Z) - A Unified Analysis of Stochastic Gradient Methods for Nonconvex
Federated Optimization [16.714109768541785]
非非状態におけるSGD不変量を満たすすべての方法について単一の解析を行う。
また、PL条件下での非非状態におけるより高速な線形収束を得るための統一解析も提供する。
論文 参考訳(メタデータ) (2020-06-12T08:58:03Z) - A Unified Convergence Analysis for Shuffling-Type Gradient Methods [32.8097849940763]
有限項問題を解くための一般化勾配シャッフル型法に対する統一収束解析を提案する。
以上の結果から,特定の神経シャッフル変種でのトレーニングに適する選択が示唆された。
論文 参考訳(メタデータ) (2020-02-19T15:45:41Z) - On the Convergence of Adaptive Gradient Methods for Nonconvex Optimization [80.03647903934723]
我々は、勾配収束法を期待する適応勾配法を証明した。
解析では、非理解勾配境界の最適化において、より適応的な勾配法に光を当てた。
論文 参考訳(メタデータ) (2018-08-16T20:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。