論文の概要: Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep
Models
- arxiv url: http://arxiv.org/abs/2208.06677v1
- Date: Sat, 13 Aug 2022 16:04:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 14:58:25.174263
- Title: Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep
Models
- Title(参考訳): Adan: より高速な最適化のための適応型Nesterov Momentumアルゴリズム
- Authors: Xingyu Xie and Pan Zhou and Huan Li and Zhouchen Lin and Shuicheng Yan
- Abstract要約: アダプティブ勾配アルゴリズムは、重ボール加速の移動平均アイデアを借用し、勾配の第1次モーメントを正確に推定し、収束を加速する。
ネステロフ加速は、理論上はボール加速よりも早く収束し、多くの経験的ケースでも収束する。
本稿では,計算勾配の余分な計算とメモリオーバーヘッドを回避するため,Nesterov運動量推定法(NME)を提案する。
Adan は視覚変換器 (ViT と CNN) で対応する SoTA を上回り,多くの人気ネットワークに対して新たな SoTA を設定する。
- 参考スコア(独自算出の注目度): 158.19276683455254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive gradient algorithms borrow the moving average idea of heavy ball
acceleration to estimate accurate first- and second-order moments of gradient
for accelerating convergence. However, Nesterov acceleration which converges
faster than heavy ball acceleration in theory and also in many empirical cases
is much less investigated under the adaptive gradient setting. In this work, we
propose the ADAptive Nesterov momentum algorithm, Adan for short, to
effectively speedup the training of deep neural networks. Adan first
reformulates the vanilla Nesterov acceleration to develop a new Nesterov
momentum estimation (NME) method, which avoids the extra computation and memory
overhead of computing gradient at the extrapolation point. Then Adan adopts NME
to estimate the first- and second-order moments of the gradient in adaptive
gradient algorithms for convergence acceleration. Besides, we prove that Adan
finds an $\epsilon$-approximate first-order stationary point within
$O(\epsilon^{-3.5})$ stochastic gradient complexity on the nonconvex stochastic
problems (e.g., deep learning problems), matching the best-known lower bound.
Extensive experimental results show that Adan surpasses the corresponding SoTA
optimizers on both vision transformers (ViTs) and CNNs, and sets new SoTAs for
many popular networks, e.g., ResNet, ConvNext, ViT, Swin, MAE, LSTM,
Transformer-XL, and BERT. More surprisingly, Adan can use half of the training
cost (epochs) of SoTA optimizers to achieve higher or comparable performance on
ViT and ResNet, e.t.c., and also shows great tolerance to a large range of
minibatch size, e.g., from 1k to 32k. We hope Adan can contribute to the
development of deep learning by reducing training cost and relieving
engineering burden of trying different optimizers on various architectures.
Code will be released at https://github.com/sail-sg/Adan.
- Abstract(参考訳): 適応勾配アルゴリズムは重い球加速度の移動平均アイデアを借用し、収束を加速するために正確な勾配の1次および2次モーメントを推定する。
しかし、理論上、重い球加速よりも早く収束するネステロフ加速や、多くの経験的ケースでは、適応勾配条件下では、はるかに研究されていない。
本研究では,深層ニューラルネットワークのトレーニングを効果的に高速化するために,ADAptive Nesterov運動量アルゴリズムであるAdanを提案する。
Adanはまず、バニラネステロフ加速度を再構成し、外挿点における計算勾配の余分な計算とメモリオーバーヘッドを回避する新しいネステロフ運動量推定法(NME)を開発した。
次に、アダンは収束加速のための適応勾配アルゴリズムにおいて勾配の1階と2階のモーメントを推定するためにNMEを採用する。
さらに、アダンは、非凸確率問題(例えば深層学習問題)の確率的勾配複雑性をo(\epsilon^{-3.5})$で満たし、最もよく知られた下界に一致する1階の定常点を1階に持つことを証明する。
大規模な実験結果から、Adanは視覚変換器(ViT)とCNNの両方で対応するSoTAオプティマイザを上回り、ResNet、ConvNext、ViT、Swin、MAE、LSTM、Transformer-XL、BERTなど多くの人気ネットワーク向けに新しいSoTAを設定する。
より驚くべきことに、AdanはSoTAオプティマイザのトレーニングコスト(エポック)の半分をViTやResNetで高いあるいは同等のパフォーマンスを達成するために使用することができ、また1kから32kのような幅広いミニバッチサイズに非常に耐性がある。
トレーニングコストを削減し、さまざまなアーキテクチャでさまざまなオプティマイザを試すエンジニアリングの負担を軽減することで、adanがディープラーニングの開発に貢献できることを願っています。
コードはhttps://github.com/sail-sg/adanでリリースされる。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。
我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。
その結果,MARSの実装はAdamより一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - AdaFisher: Adaptive Second Order Optimization via Fisher Information [22.851200800265914]
本稿では,適応型プレコンディショニング勾配のためのフィッシャー情報行列に対して,ブロック対角近似を利用する適応型2次のAdaFisherを提案する。
AdaFisher は精度と収束速度の両方において SOTA よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T01:25:02Z) - Conjugate-Gradient-like Based Adaptive Moment Estimation Optimization Algorithm for Deep Learning [2.695991050833627]
本稿では,ディープラーニングのためのCG-like-Adamという新しい最適化アルゴリズムを提案する。
具体的には、ジェネリック・アダムの第1次と第2次モーメント推定の両方を共役次数様に置き換える。
CIFAR10/100データセットに基づく提案アルゴリズムの優位性を示す数値実験を行った。
論文 参考訳(メタデータ) (2024-04-02T07:57:17Z) - Inverse-Free Fast Natural Gradient Descent Method for Deep Learning [52.0693420699086]
本稿では,第1期における逆転のみを必要とする高速な自然勾配降下法を提案する。
FNGDは1次法の平均和と類似性を示し、FNGDの計算複雑性は1次法に匹敵する。
論文 参考訳(メタデータ) (2024-03-06T05:13:28Z) - Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for
Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。
提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。
数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文 参考訳(メタデータ) (2023-05-23T04:12:55Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - Adaptive Gradient Methods Can Be Provably Faster than SGD after Finite
Epochs [25.158203665218164]
適応勾配法は有限時間後にランダムシャッフルSGDよりも高速であることを示す。
我々の知る限り、適応的勾配法は有限時間後にSGDよりも高速であることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2020-06-12T09:39:47Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。