論文の概要: Convergence Rate Analysis of the AdamW-Style Shampoo: Unifying One-sided and Two-Sided Preconditioning
- arxiv url: http://arxiv.org/abs/2601.07326v1
- Date: Mon, 12 Jan 2026 08:51:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.294021
- Title: Convergence Rate Analysis of the AdamW-Style Shampoo: Unifying One-sided and Two-Sided Preconditioning
- Title(参考訳): アダムW型シャンプーの収束速度解析:片側と二側を一体化したプレコンディショニング
- Authors: Huan Li, Yiming Dong, Zhouchen Lin,
- Abstract要約: AdamWスタイルのシャンプーは、古典的なアルゴシャンプーの効果的な実装である。
分析は一方と両側の事前条件を統一する。
我々の収束率は最適な $frac1Ksum_k=1KEleft[|nabla f(X_k)|_F$ に類似していると考えられる。
- 参考スコア(独自算出の注目度): 52.95596504632859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies the AdamW-style Shampoo optimizer, an effective implementation of classical Shampoo that notably won the external tuning track of the AlgoPerf neural network training algorithm competition. Our analysis unifies one-sided and two-sided preconditioning and establishes the convergence rate $\frac{1}{K}\sum_{k=1}^K E\left[\|\nabla f(X_k)\|_*\right]\leq O(\frac{\sqrt{m+n}C}{K^{1/4}})$ measured by nuclear norm, where $K$ represents the iteration number, $(m,n)$ denotes the size of matrix parameters, and $C$ matches the constant in the optimal convergence rate of SGD. Theoretically, we have $\|\nabla f(X)\|_F\leq \|\nabla f(X)\|_*\leq \sqrt{m+n}\|\nabla f(X)\|_F$, supporting that our convergence rate can be considered to be analogous to the optimal $\frac{1}{K}\sum_{k=1}^KE\left[\|\nabla f(X_k)\|_F\right]\leq O(\frac{C}{K^{1/4}})$ convergence rate of SGD in the ideal case of $\|\nabla f(X)\|_*= Θ(\sqrt{m+n})\|\nabla f(X)\|_F$.
- Abstract(参考訳): 本稿では,AlgoPerfニューラルネットワークトレーニングアルゴリズムコンペティションの外部チューニングトラックで優勝した,古典シャンプーの効果的な実装であるAdamWスタイルシャンプーオプティマイザについて検討する。
我々の分析は一方と両側の事前条件を統一し、収束率$\frac{1}{K}\sum_{k=1}^K E\left[\|\nabla f(X_k)\|_*\right]\leq O(\frac{\sqrt{m+n}C}{K^{1/4}})$核ノルムで測定され、$K$は反復数を表し、$(m,n)$は行列パラメータのサイズを示し、$C$はSGDの最適収束率の定数と一致する。
理論的には、$\|\nabla f(X)\|_F\leq \|\nabla f(X)\|_*\leq \sqrt{m+n}\|\nabla f(X)\|_F$ が成り立つが、この収束率は最適の $\frac{1}{K}\sum_{k=1}^KE\left[\|\nabla f(X_k)\|_F\right]\leq O(\frac{C}{K^{1/4}})$ 理想の $\|\nabla f(X)\|_*= ^(\sq {+n}|\nabla f(X$F)\|である。
関連論文リスト
- On the $O(\frac{\sqrt{d}}{K^{1/4}})$ Convergence Rate of AdamW Measured by $\ell_1$ Norm [52.95596504632859]
本稿では、$ell_1$ノルムで測定されたAdamWに対して、収束速度 $frac1Ksum_k=1KEleft[||nabla f(xk)||_1right]leq O(fracsqrtdCK1/4)$を確立する。
結果は、二重モーメント機構を用いたAdamW変種であるNAdamWに拡張し、同じ収束率を維持していることを示す。
論文 参考訳(メタデータ) (2025-05-17T05:02:52Z) - On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its Momentum Extension Measured by $\ell_1$ Norm [54.28350823319057]
本稿では、RMSPropとその運動量拡張を考察し、$frac1Tsum_k=1Tの収束速度を確立する。
我々の収束率は、次元$d$を除くすべての係数に関して下界と一致する。
収束率は$frac1Tsum_k=1Tと類似していると考えられる。
論文 参考訳(メタデータ) (2024-02-01T07:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。