論文の概要: On the $O(\frac{\sqrt{d}}{K^{1/4}})$ Convergence Rate of AdamW Measured by $\ell_1$ Norm
- arxiv url: http://arxiv.org/abs/2505.11840v1
- Date: Sat, 17 May 2025 05:02:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.887501
- Title: On the $O(\frac{\sqrt{d}}{K^{1/4}})$ Convergence Rate of AdamW Measured by $\ell_1$ Norm
- Title(参考訳): O(\frac{\sqrt{d}}{K^{1/4}})$AdamWの収束速度について
- Authors: Huan Li, Yiming Dong, Zhouchen Lin,
- Abstract要約: 本稿では、$ell_$ノルムで測定されたAdamWの収束率$frac1Ksum_k=1KEleft[|nabla f(xk)|_1right]leq O(fracsqrtdCK1/4)を確立する。
- 参考スコア(独自算出の注目度): 54.28350823319057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the default optimizer for training large language models, AdamW has achieved remarkable success in deep learning. However, its convergence behavior is not theoretically well-understood. This paper establishes the convergence rate $\frac{1}{K}\sum_{k=1}^KE\left[\|\nabla f(x^k)\|_1\right]\leq O(\frac{\sqrt{d}C}{K^{1/4}})$ for AdamW measured by $\ell_1$ norm, where $K$ represents the iteration number, $d$ denotes the model dimension, and $C$ matches the constant in the optimal convergence rate of SGD. Theoretically, we have $E\left[\|\nabla f(x)\|_1\right]\geq\sqrt{\frac{2d}{\pi}}E\left[\|\nabla f(x)\|_2\right]$ when each element of $\nabla f(x)$ is generated from Gaussian distribution $\mathcal N(0,1)$. Empirically, our experimental results on real-world deep learning tasks reveal $\|\nabla f(x)\|_1=\varTheta(\sqrt{d})\|\nabla f(x)\|_2$. Both support that our convergence rate can be considered to be analogous to the optimal $\frac{1}{K}\sum_{k=1}^KE\left[\|\nabla f(x^k)\|_2\right]\leq O(\frac{C}{K^{1/4}})$ convergence rate of SGD.
- Abstract(参考訳): 大規模な言語モデルをトレーニングするためのデフォルトのオプティマイザとして、AdamWはディープラーニングで素晴らしい成功を収めた。
しかし、その収束挙動は理論的にはよく理解されていない。
本稿では、収束率 $\frac{1}{K}\sum_{k=1}^KE\left[\|\nabla f(x^k)\|_1\right]\leq O(\frac{\sqrt{d}C}{K^{1/4}})$ for AdamW measured by $\ell_1$ norm, where $K$は反復数を表し、$d$はモデル次元を表し、$C$はSGDの最適収束率の定数と一致する。
理論的には、$E\left[\|\nabla f(x)\|_1\right]\geq\sqrt {\frac{2d}{\pi}}E\left[\|\nabla f(x)\|_2\right]$ がガウス分布 $\mathcal N(0,1)$ から生成されるとき、$E\left[\|\nabla f(x)$ が生成される。
実世界のディープラーニングタスクに関する実験結果は、$\|\nabla f(x)\|_1=\varTheta(\sqrt{d})\|\nabla f(x)\|_2$である。
我々の収束率を最適$\frac{1}{K}\sum_{k=1}^KE\left[\|\nabla f(x^k)\|_2\right]\leq O(\frac{C}{K^{1/4}})$収束率とみなすことができる。
関連論文リスト
- On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its Momentum Extension Measured by $\ell_1$ Norm [54.28350823319057]
本稿では、RMSPropとその運動量拡張を考察し、$frac1Tsum_k=1Tの収束速度を確立する。
我々の収束率は、次元$d$を除くすべての係数に関して下界と一致する。
収束率は$frac1Tsum_k=1Tと類似していると考えられる。
論文 参考訳(メタデータ) (2024-02-01T07:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。