論文の概要: Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep
Models
- arxiv url: http://arxiv.org/abs/2208.06677v1
- Date: Sat, 13 Aug 2022 16:04:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 14:58:25.174263
- Title: Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep
Models
- Title(参考訳): Adan: より高速な最適化のための適応型Nesterov Momentumアルゴリズム
- Authors: Xingyu Xie and Pan Zhou and Huan Li and Zhouchen Lin and Shuicheng Yan
- Abstract要約: アダプティブ勾配アルゴリズムは、重ボール加速の移動平均アイデアを借用し、勾配の第1次モーメントを正確に推定し、収束を加速する。
ネステロフ加速は、理論上はボール加速よりも早く収束し、多くの経験的ケースでも収束する。
本稿では,計算勾配の余分な計算とメモリオーバーヘッドを回避するため,Nesterov運動量推定法(NME)を提案する。
Adan は視覚変換器 (ViT と CNN) で対応する SoTA を上回り,多くの人気ネットワークに対して新たな SoTA を設定する。
- 参考スコア(独自算出の注目度): 158.19276683455254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive gradient algorithms borrow the moving average idea of heavy ball
acceleration to estimate accurate first- and second-order moments of gradient
for accelerating convergence. However, Nesterov acceleration which converges
faster than heavy ball acceleration in theory and also in many empirical cases
is much less investigated under the adaptive gradient setting. In this work, we
propose the ADAptive Nesterov momentum algorithm, Adan for short, to
effectively speedup the training of deep neural networks. Adan first
reformulates the vanilla Nesterov acceleration to develop a new Nesterov
momentum estimation (NME) method, which avoids the extra computation and memory
overhead of computing gradient at the extrapolation point. Then Adan adopts NME
to estimate the first- and second-order moments of the gradient in adaptive
gradient algorithms for convergence acceleration. Besides, we prove that Adan
finds an $\epsilon$-approximate first-order stationary point within
$O(\epsilon^{-3.5})$ stochastic gradient complexity on the nonconvex stochastic
problems (e.g., deep learning problems), matching the best-known lower bound.
Extensive experimental results show that Adan surpasses the corresponding SoTA
optimizers on both vision transformers (ViTs) and CNNs, and sets new SoTAs for
many popular networks, e.g., ResNet, ConvNext, ViT, Swin, MAE, LSTM,
Transformer-XL, and BERT. More surprisingly, Adan can use half of the training
cost (epochs) of SoTA optimizers to achieve higher or comparable performance on
ViT and ResNet, e.t.c., and also shows great tolerance to a large range of
minibatch size, e.g., from 1k to 32k. We hope Adan can contribute to the
development of deep learning by reducing training cost and relieving
engineering burden of trying different optimizers on various architectures.
Code will be released at https://github.com/sail-sg/Adan.
- Abstract(参考訳): 適応勾配アルゴリズムは重い球加速度の移動平均アイデアを借用し、収束を加速するために正確な勾配の1次および2次モーメントを推定する。
しかし、理論上、重い球加速よりも早く収束するネステロフ加速や、多くの経験的ケースでは、適応勾配条件下では、はるかに研究されていない。
本研究では,深層ニューラルネットワークのトレーニングを効果的に高速化するために,ADAptive Nesterov運動量アルゴリズムであるAdanを提案する。
Adanはまず、バニラネステロフ加速度を再構成し、外挿点における計算勾配の余分な計算とメモリオーバーヘッドを回避する新しいネステロフ運動量推定法(NME)を開発した。
次に、アダンは収束加速のための適応勾配アルゴリズムにおいて勾配の1階と2階のモーメントを推定するためにNMEを採用する。
さらに、アダンは、非凸確率問題(例えば深層学習問題)の確率的勾配複雑性をo(\epsilon^{-3.5})$で満たし、最もよく知られた下界に一致する1階の定常点を1階に持つことを証明する。
大規模な実験結果から、Adanは視覚変換器(ViT)とCNNの両方で対応するSoTAオプティマイザを上回り、ResNet、ConvNext、ViT、Swin、MAE、LSTM、Transformer-XL、BERTなど多くの人気ネットワーク向けに新しいSoTAを設定する。
より驚くべきことに、AdanはSoTAオプティマイザのトレーニングコスト(エポック)の半分をViTやResNetで高いあるいは同等のパフォーマンスを達成するために使用することができ、また1kから32kのような幅広いミニバッチサイズに非常に耐性がある。
トレーニングコストを削減し、さまざまなアーキテクチャでさまざまなオプティマイザを試すエンジニアリングの負担を軽減することで、adanがディープラーニングの開発に貢献できることを願っています。
コードはhttps://github.com/sail-sg/adanでリリースされる。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Conjugate-Gradient-like Based Adaptive Moment Estimation Optimization Algorithm for Deep Learning [2.695991050833627]
本稿では,ディープラーニングのためのCG-like-Adamという新しい最適化アルゴリズムを提案する。
具体的には、ジェネリック・アダムの第1次と第2次モーメント推定の両方を共役次数様に置き換える。
CIFAR10/100データセットに基づく提案アルゴリズムの優位性を示す数値実験を行った。
論文 参考訳(メタデータ) (2024-04-02T07:57:17Z) - Inverse-Free Fast Natural Gradient Descent Method for Deep Learning [52.0693420699086]
本稿では,第1期における逆転のみを必要とする高速な自然勾配降下法を提案する。
FNGDは1次法の平均和と類似性を示し、FNGDの計算複雑性は1次法に匹敵する。
論文 参考訳(メタデータ) (2024-03-06T05:13:28Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Adaptive Gradient Methods Can Be Provably Faster than SGD after Finite
Epochs [25.158203665218164]
適応勾配法は有限時間後にランダムシャッフルSGDよりも高速であることを示す。
我々の知る限り、適応的勾配法は有限時間後にSGDよりも高速であることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2020-06-12T09:39:47Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z) - Gradient descent with momentum --- to accelerate or to super-accelerate? [0.0]
「この加速を延長してアルゴリズムを改良できることを示せ」
スーパーアクセラレーションは、RMSPropやAdamのような適応アルゴリズムに簡単に組み込むことができる。
論文 参考訳(メタデータ) (2020-01-17T18:50:07Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。