論文の概要: Inverse-Free Fast Natural Gradient Descent Method for Deep Learning
- arxiv url: http://arxiv.org/abs/2403.03473v1
- Date: Wed, 6 Mar 2024 05:13:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 16:05:11.292462
- Title: Inverse-Free Fast Natural Gradient Descent Method for Deep Learning
- Title(参考訳): 深層学習のための逆フリー高速自然勾配法
- Authors: Xinwei Ou, Ce Zhu, Xiaolin Huang, and Yipeng Liu
- Abstract要約: 本稿では,FNGD法とFNGD法について述べる。
FNGDは、自然勾配降下を、一階法の平均和に類似した固定係数重み付き和として近似する。
- 参考スコア(独自算出の注目度): 52.0693420699086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Second-order methods can converge much faster than first-order methods by
incorporating second-order derivates or statistics, but they are far less
prevalent in deep learning due to their computational inefficiency. To handle
this, many of the existing solutions focus on reducing the size of the matrix
to be inverted. However, it is still needed to perform the inverse operator in
each iteration. In this paper, we present a fast natural gradient descent
(FNGD) method, which only requires computing the inverse during the first
epoch. Firstly, we reformulate the gradient preconditioning formula in the
natural gradient descent (NGD) as a weighted sum of per-sample gradients using
the Sherman-Morrison-Woodbury formula. Building upon this, to avoid the
iterative inverse operation involved in computing coefficients, the weighted
coefficients are shared across epochs without affecting the empirical
performance.
FNGD approximates the NGD as a fixed-coefficient weighted sum, akin to the
average sum in first-order methods. Consequently, the computational complexity
of FNGD can approach that of first-order methods. To demonstrate the efficiency
of the proposed FNGD, we perform empirical evaluations on image classification
and machine translation tasks. For training ResNet-18 on the CIFAR-100 dataset,
FNGD can achieve a speedup of 2.05$\times$ compared with KFAC. For training
Transformer on Multi30K, FNGD outperforms AdamW by 24 BLEU score while
requiring almost the same training time.
- Abstract(参考訳): 二階法は二階微分法や統計学を取り入れた一階法よりもはるかに高速に収束できるが、計算不効率のため深層学習ではあまり普及しない。
これを扱うために、既存のソリューションの多くは、逆行列のサイズを減らすことに重点を置いている。
しかし、各イテレーションで逆演算子を実行する必要がある。
本稿では,最初の時代における逆計算のみを必要とする高速自然勾配降下法(fngd)を提案する。
まず,自然勾配降下(NGD)の勾配前条件式をシャーマン・モリソン・ウードベリー式を用いて,サンプルごとの勾配の重み付け和として再構成する。
これに基づいて計算係数の反復的逆演算を避けるため、重み付き係数は経験的性能に影響を与えることなくエポック間で共有される。
FNGDは、NGDを固定係数重み付け和として近似し、一階法の平均和と似ている。
したがって、fngdの計算複雑性は一階法に近づくことができる。
提案するFNGDの効率性を示すため,画像分類と機械翻訳タスクの実証評価を行った。
CIFAR-100データセット上でResNet-18をトレーニングするために、FNGDはKFACと比較して2.05$\times$のスピードアップを達成できる。
Multi30Kでのトランスフォーマーのトレーニングでは、FNGDはAdamWを24 BLEUスコアで上回り、ほぼ同じトレーニング時間を必要とする。
関連論文リスト
- Derivative-Free Optimization via Finite Difference Approximation: An Experimental Study [1.3886390523644807]
微分自由最適化(DFO)は、関数評価のみをオラクルで利用できるような複雑な最適化問題の解決に不可欠である。
2つの古典的なイテレーションアプローチは、Kiefer-Wolfowitz (KW) と同時摂動近似 (SPSA) アルゴリズムである。
本稿では,これらの手法の総合的な比較実験を行う。
論文 参考訳(メタデータ) (2024-10-31T18:07:44Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for
Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。
提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。
数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文 参考訳(メタデータ) (2023-05-23T04:12:55Z) - Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep
Models [158.19276683455254]
アダプティブ勾配アルゴリズムは、重ボール加速の移動平均アイデアを借用し、勾配の第1次モーメントを正確に推定し、収束を加速する。
ネステロフ加速は、理論上はボール加速よりも早く収束し、多くの経験的ケースでも収束する。
本稿では,計算勾配の余分な計算とメモリオーバーヘッドを回避するため,Nesterov運動量推定法(NME)を提案する。
Adan は視覚変換器 (ViT と CNN) で対応する SoTA を上回り,多くの人気ネットワークに対して新たな SoTA を設定する。
論文 参考訳(メタデータ) (2022-08-13T16:04:39Z) - Momentum-Based Policy Gradient with Second-Order Information [40.51117836892182]
本稿では,2次情報を勾配降下に組み込んだSHARP法を提案する。
従来の研究と異なり,提案アルゴリズムでは,分散還元プロセスの利点を損なうような重要サンプリングを必要としない。
提案手法が様々な制御課題に対して有効であることを示すとともに,実際の技術状況に対する優位性を示す。
論文 参考訳(メタデータ) (2022-05-17T11:56:50Z) - Fast Margin Maximization via Dual Acceleration [52.62944011696364]
指数関数的尾の損失を持つ線形分類器を訓練するための運動量に基づく手法を提案し,解析する。
この運動量に基づく法は、最大マルジン問題の凸双対、特にこの双対にネステロフ加速度を適用することによって導出される。
論文 参考訳(メタデータ) (2021-07-01T16:36:39Z) - Adaptive Gradient Methods Can Be Provably Faster than SGD after Finite
Epochs [25.158203665218164]
適応勾配法は有限時間後にランダムシャッフルSGDよりも高速であることを示す。
我々の知る限り、適応的勾配法は有限時間後にSGDよりも高速であることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2020-06-12T09:39:47Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。