Fugu-MT 論文翻訳(概要): Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models

論文の概要: Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models

arxiv url: http://arxiv.org/abs/2208.06677v1
Date: Sat, 13 Aug 2022 16:04:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-16 14:58:25.174263
Title: Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models
Title（参考訳）: Adan: より高速な最適化のための適応型Nesterov Momentumアルゴリズム
Authors: Xingyu Xie and Pan Zhou and Huan Li and Zhouchen Lin and Shuicheng Yan
Abstract要約: アダプティブ勾配アルゴリズムは、重ボール加速の移動平均アイデアを借用し、勾配の第1次モーメントを正確に推定し、収束を加速する。ネステロフ加速は、理論上はボール加速よりも早く収束し、多くの経験的ケースでも収束する。本稿では,計算勾配の余分な計算とメモリオーバーヘッドを回避するため,Nesterov運動量推定法(NME)を提案する。 Adan は視覚変換器 (ViT と CNN) で対応する SoTA を上回り,多くの人気ネットワークに対して新たな SoTA を設定する。
参考スコア（独自算出の注目度）: 158.19276683455254
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Adaptive gradient algorithms borrow the moving average idea of heavy ball acceleration to estimate accurate first- and second-order moments of gradient for accelerating convergence. However, Nesterov acceleration which converges faster than heavy ball acceleration in theory and also in many empirical cases is much less investigated under the adaptive gradient setting. In this work, we propose the ADAptive Nesterov momentum algorithm, Adan for short, to effectively speedup the training of deep neural networks. Adan first reformulates the vanilla Nesterov acceleration to develop a new Nesterov momentum estimation (NME) method, which avoids the extra computation and memory overhead of computing gradient at the extrapolation point. Then Adan adopts NME to estimate the first- and second-order moments of the gradient in adaptive gradient algorithms for convergence acceleration. Besides, we prove that Adan finds an $\epsilon$-approximate first-order stationary point within $O(\epsilon^{-3.5})$ stochastic gradient complexity on the nonconvex stochastic problems (e.g., deep learning problems), matching the best-known lower bound. Extensive experimental results show that Adan surpasses the corresponding SoTA optimizers on both vision transformers (ViTs) and CNNs, and sets new SoTAs for many popular networks, e.g., ResNet, ConvNext, ViT, Swin, MAE, LSTM, Transformer-XL, and BERT. More surprisingly, Adan can use half of the training cost (epochs) of SoTA optimizers to achieve higher or comparable performance on ViT and ResNet, e.t.c., and also shows great tolerance to a large range of minibatch size, e.g., from 1k to 32k. We hope Adan can contribute to the development of deep learning by reducing training cost and relieving engineering burden of trying different optimizers on various architectures. Code will be released at https://github.com/sail-sg/Adan.
Abstract（参考訳）: 適応勾配アルゴリズムは重い球加速度の移動平均アイデアを借用し、収束を加速するために正確な勾配の1次および2次モーメントを推定する。しかし、理論上、重い球加速よりも早く収束するネステロフ加速や、多くの経験的ケースでは、適応勾配条件下では、はるかに研究されていない。本研究では,深層ニューラルネットワークのトレーニングを効果的に高速化するために,ADAptive Nesterov運動量アルゴリズムであるAdanを提案する。 Adanはまず、バニラネステロフ加速度を再構成し、外挿点における計算勾配の余分な計算とメモリオーバーヘッドを回避する新しいネステロフ運動量推定法(NME)を開発した。次に、アダンは収束加速のための適応勾配アルゴリズムにおいて勾配の1階と2階のモーメントを推定するためにNMEを採用する。さらに、アダンは、非凸確率問題(例えば深層学習問題)の確率的勾配複雑性をo(\epsilon^{-3.5})$で満たし、最もよく知られた下界に一致する1階の定常点を1階に持つことを証明する。大規模な実験結果から、Adanは視覚変換器(ViT)とCNNの両方で対応するSoTAオプティマイザを上回り、ResNet、ConvNext、ViT、Swin、MAE、LSTM、Transformer-XL、BERTなど多くの人気ネットワーク向けに新しいSoTAを設定する。より驚くべきことに、AdanはSoTAオプティマイザのトレーニングコスト(エポック)の半分をViTやResNetで高いあるいは同等のパフォーマンスを達成するために使用することができ、また1kから32kのような幅広いミニバッチサイズに非常に耐性がある。トレーニングコストを削減し、さまざまなアーキテクチャでさまざまなオプティマイザを試すエンジニアリングの負担を軽減することで、adanがディープラーニングの開発に貢献できることを願っています。コードはhttps://github.com/sail-sg/adanでリリースされる。

関連論文リスト

Towards Practical Second-Order Optimizers in Deep Learning: Insights from Fisher Information Analysis [0.0]
本稿では、ディープニューラルネットワーク(DNN)のための新しい適応2階チューニングであるAdaFisherを紹介する。 AdaFisherは、改良された収束と2階法の一般化と、訓練に必要な計算効率とのギャップを埋めることを目的としている。我々はAdaFisherが精度と収束速度の両方で最先端の近似より優れていることを示す。
論文参考訳（メタデータ） (2025-04-26T05:02:21Z)
MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文参考訳（メタデータ） (2024-11-15T18:57:39Z)
AdaFisher: Adaptive Second Order Optimization via Fisher Information [22.851200800265914]
第一次最適化法は、現在、深層ニューラルネットワーク(DNN)のトレーニングにおいて主流となっている。Adamのような企業は、トレーニング中に勾配の行列プレコンディショニングを利用することで、限られた曲率情報を取り入れている。広範に使われている2階最適化アルゴリズムは、AdamやSGDのような一階最適化アルゴリズムよりも優れた収束特性を示す。本稿では,適応勾配プレコンディショニングのためのフィッシャー情報行列の角角ブロッククロネッカー近似を利用する適応二階法であるEmphAdaFisherを提案する。
論文参考訳（メタデータ） (2024-05-26T01:25:02Z)
Conjugate-Gradient-like Based Adaptive Moment Estimation Optimization Algorithm for Deep Learning [2.695991050833627]
本稿では,ディープラーニングのためのCG-like-Adamという新しい最適化アルゴリズムを提案する。具体的には、ジェネリック・アダムの第1次と第2次モーメント推定の両方を共役次数様に置き換える。 CIFAR10/100データセットに基づく提案アルゴリズムの優位性を示す数値実験を行った。
論文参考訳（メタデータ） (2024-04-02T07:57:17Z)
Inverse-Free Fast Natural Gradient Descent Method for Deep Learning [52.0693420699086]
本稿では,第1期における逆転のみを必要とする高速な自然勾配降下法を提案する。 FNGDは1次法の平均和と類似性を示し、FNGDの計算複雑性は1次法に匹敵する。
論文参考訳（メタデータ） (2024-03-06T05:13:28Z)
ELRA: Exponential learning rate adaption gradient descent optimization method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。本手法の主な考え方は,状況認識による$alphaの適応である。これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文参考訳（メタデータ） (2023-09-12T14:36:13Z)
Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文参考訳（メタデータ） (2023-05-23T04:12:55Z)
SHINE: SHaring the INverse Estimate from the forward pass for bi-level optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文参考訳（メタデータ） (2021-06-01T15:07:34Z)
Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。本研究の結果は, 同時一次および二重側収束の形で表される。
論文参考訳（メタデータ） (2020-08-23T20:36:49Z)
Adaptive Gradient Methods Can Be Provably Faster than SGD after Finite Epochs [25.158203665218164]
適応勾配法は有限時間後にランダムシャッフルSGDよりも高速であることを示す。我々の知る限り、適応的勾配法は有限時間後にSGDよりも高速であることを示すのはこれが初めてである。
論文参考訳（メタデータ） (2020-06-12T09:39:47Z)
Communication-Efficient Distributed Stochastic AUC Maximization with Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文参考訳（メタデータ） (2020-05-05T18:08:23Z)
Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。 SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文参考訳（メタデータ） (2020-04-20T02:40:43Z)
Gradient descent with momentum --- to accelerate or to super-accelerate? [0.0]
「この加速を延長してアルゴリズムを改良できることを示せ」スーパーアクセラレーションは、RMSPropやAdamのような適応アルゴリズムに簡単に組み込むことができる。
論文参考訳（メタデータ） (2020-01-17T18:50:07Z)
Towards Better Understanding of Adaptive Gradient Algorithms in Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文参考訳（メタデータ） (2019-12-26T22:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。