論文の概要: SGD with Adaptive Preconditioning: Unified Analysis and Momentum Acceleration
- arxiv url: http://arxiv.org/abs/2506.23803v1
- Date: Mon, 30 Jun 2025 12:47:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.05946
- Title: SGD with Adaptive Preconditioning: Unified Analysis and Momentum Acceleration
- Title(参考訳): 適応型プレコンディショニングによるSGD:統一解析とモーメント・アクセラレーション
- Authors: Dmitry Kovalev,
- Abstract要約: 適応型プレコンディショニングによる勾配降下(SGD)の統一収束解析を開発した。
我々は最近提案された2つのアルゴリズムであるScionとDASGOの基本的な関係を確立する。
AdaGrad型アルゴリズムが対角的前提条件と運動量の両方から同時に恩恵を受けることができるという最初の理論的正当性を得る。
- 参考スコア(独自算出の注目度): 19.574602844234814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we revisit stochastic gradient descent (SGD) with AdaGrad-type preconditioning. Our contributions are twofold. First, we develop a unified convergence analysis of SGD with adaptive preconditioning under anisotropic or matrix smoothness and noise assumptions. This allows us to recover state-of-the-art convergence results for several popular adaptive gradient methods, including AdaGrad-Norm, AdaGrad, and ASGO/One-sided Shampoo. In addition, we establish the fundamental connection between two recently proposed algorithms, Scion and DASGO, and provide the first theoretical guarantees for the latter. Second, we show that the convergence of methods like AdaGrad and DASGO can be provably accelerated beyond the best-known rates using Nesterov momentum. Consequently, we obtain the first theoretical justification that AdaGrad-type algorithms can simultaneously benefit from both diagonal preconditioning and momentum, which may provide an ultimate explanation for the practical efficiency of Adam.
- Abstract(参考訳): 本稿では,AdaGrad型プレコンディショニングを用いて,確率勾配降下(SGD)を再検討する。
私たちの貢献は2倍です。
まず,アダプティブプレコンディショニングによるSGDの統一収束解析を,異方性あるいは行列の滑らかさおよび雑音仮定の下で開発する。
これにより、AdaGrad-Norm、AdaGrad、ASGO/One-sided Shampooなど、いくつかの一般的な適応勾配法に対して、最先端の収束結果を復元することができる。
さらに,最近提案された2つのアルゴリズムであるScionとDASGOの基本的な関係を確立し,後者に対する最初の理論的保証を提供する。
第二に、AdaGrad や DASGO のような手法の収束は、Nesterov 運動量を用いた最もよく知られた速度を超えて、確実に加速できることを示す。
その結果、AdaGrad型アルゴリズムが対角的前提条件と運動量の両方から同時に恩恵を受けることができるという最初の理論的正当性を得ることができ、Adamの実用的効率を究極的に説明できるかもしれない。
関連論文リスト
- Revisiting Stochastic Approximation and Stochastic Gradient Descent [2.4092466208212313]
本稿では,近似 (SA) アルゴリズムと勾配 Descent (SGD) アルゴリズムの収束性を証明する新しい手法を提案する。
新しいアプローチはGSLLN(Generalized Strong Law of Large Numbers)と呼ばれる概念に基づいており、従来のSLLNを拡張している。
論文 参考訳(メタデータ) (2025-05-16T15:10:58Z) - On the Convergence of DP-SGD with Adaptive Clipping [56.24689348875711]
勾配クリッピングによるグラディエントDescentは、微分プライベート最適化を実現するための強力な技術である。
本稿では,量子クリッピング(QC-SGD)を用いたSGDの総合収束解析について述べる。
本稿では,QC-SGDが一定閾値クリッピングSGDに類似したバイアス問題にどのように悩まされているかを示す。
論文 参考訳(メタデータ) (2024-12-27T20:29:47Z) - Provable Complexity Improvement of AdaGrad over SGD: Upper and Lower Bounds in Stochastic Non-Convex Optimization [18.47705532817026]
適応勾配法は、最も成功したニューラルネットワークトレーニングアルゴリズムの一つである。
これらの手法は凸SGD-ノルマリティよりも次元依存性が優れていることが知られている。
本稿では,構造物の滑らかさと勾配雑音の分散に関する新しい仮定を紹介する。
論文 参考訳(メタデータ) (2024-06-07T02:55:57Z) - Curvature-Informed SGD via General Purpose Lie-Group Preconditioners [6.760212042305871]
曲率情報を利用して勾配降下(SGD)を加速する新しい手法を提案する。
提案手法は,行列フリープレコンディショナーと低ランクプレコンディショナーの2つのプレコンディショナーを含む。
プレコンディショニングされたSGD(PSGD)は、ビジョン、NLP、RLタスクにおいてSoTAよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-07T03:18:00Z) - Nesterov Meets Optimism: Rate-Optimal Separable Minimax Optimization [108.35402316802765]
本稿では,新しい一階最適化アルゴリズムであるAcceleratedGradient-OptimisticGradient (AG-OG) Ascentを提案する。
我々はAG-OGが様々な設定に対して最適収束率(定数まで)を達成することを示す。
アルゴリズムを拡張して設定を拡張し、bi-SC-SCとbi-C-SCの両方で最適な収束率を達成する。
論文 参考訳(メタデータ) (2022-10-31T17:59:29Z) - From Gradient Flow on Population Loss to Learning with Stochastic
Gradient Descent [50.4531316289086]
SGD(Gradient Descent)は、大規模非ルートモデルの学習方法である。
集団損失のGFが収束すると仮定して、総合的な条件 SGD が収束する。
我々は、凸損失のような古典的な設定だけでなく、Retrieval Matrix sq-rootのようなより複雑な問題に対してもGD/SGDを統一的に解析する。
論文 参考訳(メタデータ) (2022-10-13T03:55:04Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z) - Stochastic Gradient Descent-Ascent and Consensus Optimization for Smooth
Games: Convergence Analysis under Expected Co-coercivity [49.66890309455787]
本稿では,SGDA と SCO の最終的な収束保証として,期待されるコヒーレンシティ条件を導入し,その利点を説明する。
定常的なステップサイズを用いた場合、両手法の線形収束性を解の近傍に証明する。
我々の収束保証は任意のサンプリングパラダイムの下で保たれ、ミニバッチの複雑さに関する洞察を与える。
論文 参考訳(メタデータ) (2021-06-30T18:32:46Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Adaptive Gradient Methods Can Be Provably Faster than SGD after Finite
Epochs [25.158203665218164]
適応勾配法は有限時間後にランダムシャッフルSGDよりも高速であることを示す。
我々の知る限り、適応的勾配法は有限時間後にSGDよりも高速であることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2020-06-12T09:39:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。