論文の概要: Inverse-Free Fast Natural Gradient Descent Method for Deep Learning
- arxiv url: http://arxiv.org/abs/2403.03473v1
- Date: Wed, 6 Mar 2024 05:13:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 16:05:11.292462
- Title: Inverse-Free Fast Natural Gradient Descent Method for Deep Learning
- Title(参考訳): 深層学習のための逆フリー高速自然勾配法
- Authors: Xinwei Ou, Ce Zhu, Xiaolin Huang, and Yipeng Liu
- Abstract要約: 本稿では,FNGD法とFNGD法について述べる。
FNGDは、自然勾配降下を、一階法の平均和に類似した固定係数重み付き和として近似する。
- 参考スコア(独自算出の注目度): 52.0693420699086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Second-order methods can converge much faster than first-order methods by
incorporating second-order derivates or statistics, but they are far less
prevalent in deep learning due to their computational inefficiency. To handle
this, many of the existing solutions focus on reducing the size of the matrix
to be inverted. However, it is still needed to perform the inverse operator in
each iteration. In this paper, we present a fast natural gradient descent
(FNGD) method, which only requires computing the inverse during the first
epoch. Firstly, we reformulate the gradient preconditioning formula in the
natural gradient descent (NGD) as a weighted sum of per-sample gradients using
the Sherman-Morrison-Woodbury formula. Building upon this, to avoid the
iterative inverse operation involved in computing coefficients, the weighted
coefficients are shared across epochs without affecting the empirical
performance.
FNGD approximates the NGD as a fixed-coefficient weighted sum, akin to the
average sum in first-order methods. Consequently, the computational complexity
of FNGD can approach that of first-order methods. To demonstrate the efficiency
of the proposed FNGD, we perform empirical evaluations on image classification
and machine translation tasks. For training ResNet-18 on the CIFAR-100 dataset,
FNGD can achieve a speedup of 2.05$\times$ compared with KFAC. For training
Transformer on Multi30K, FNGD outperforms AdamW by 24 BLEU score while
requiring almost the same training time.
- Abstract(参考訳): 二階法は二階微分法や統計学を取り入れた一階法よりもはるかに高速に収束できるが、計算不効率のため深層学習ではあまり普及しない。
これを扱うために、既存のソリューションの多くは、逆行列のサイズを減らすことに重点を置いている。
しかし、各イテレーションで逆演算子を実行する必要がある。
本稿では,最初の時代における逆計算のみを必要とする高速自然勾配降下法(fngd)を提案する。
まず,自然勾配降下(NGD)の勾配前条件式をシャーマン・モリソン・ウードベリー式を用いて,サンプルごとの勾配の重み付け和として再構成する。
これに基づいて計算係数の反復的逆演算を避けるため、重み付き係数は経験的性能に影響を与えることなくエポック間で共有される。
FNGDは、NGDを固定係数重み付け和として近似し、一階法の平均和と似ている。
したがって、fngdの計算複雑性は一階法に近づくことができる。
提案するFNGDの効率性を示すため,画像分類と機械翻訳タスクの実証評価を行った。
CIFAR-100データセット上でResNet-18をトレーニングするために、FNGDはKFACと比較して2.05$\times$のスピードアップを達成できる。
Multi30Kでのトランスフォーマーのトレーニングでは、FNGDはAdamWを24 BLEUスコアで上回り、ほぼ同じトレーニング時間を必要とする。
関連論文リスト
- Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for
Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。
提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。
数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文 参考訳(メタデータ) (2023-05-23T04:12:55Z) - Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep
Models [158.19276683455254]
アダプティブ勾配アルゴリズムは、重ボール加速の移動平均アイデアを借用し、勾配の第1次モーメントを正確に推定し、収束を加速する。
ネステロフ加速は、理論上はボール加速よりも早く収束し、多くの経験的ケースでも収束する。
本稿では,計算勾配の余分な計算とメモリオーバーヘッドを回避するため,Nesterov運動量推定法(NME)を提案する。
Adan は視覚変換器 (ViT と CNN) で対応する SoTA を上回り,多くの人気ネットワークに対して新たな SoTA を設定する。
論文 参考訳(メタデータ) (2022-08-13T16:04:39Z) - Nesterov Accelerated ADMM for Fast Diffeomorphic Image Registration [63.15453821022452]
ディープラーニングに基づくアプローチの最近の発展は、DiffIRのサブ秒間実行を実現している。
本稿では,中間定常速度場を機能的に構成する簡易な反復スキームを提案する。
次に、任意の順序の正規化項を用いて、これらの速度場に滑らかさを課す凸最適化モデルを提案する。
論文 参考訳(メタデータ) (2021-09-26T19:56:45Z) - Fast Margin Maximization via Dual Acceleration [52.62944011696364]
指数関数的尾の損失を持つ線形分類器を訓練するための運動量に基づく手法を提案し,解析する。
この運動量に基づく法は、最大マルジン問題の凸双対、特にこの双対にネステロフ加速度を適用することによって導出される。
論文 参考訳(メタデータ) (2021-07-01T16:36:39Z) - TENGraD: Time-Efficient Natural Gradient Descent with Exact Fisher-Block
Inversion [3.9548535445908928]
この研究は、線形収束保証を備えた時間効率の良い自然勾配 Descent 法である TENGraD を提案する。
CIFAR-10, CIFAR-100, Fashion-Mにおける最先端のディープニューラルアーキテクチャのための画像分類タスクについて実験したところ, TENGraDは最先端NGD法よりも優れており, 壁面時間では勾配降下が多かった。
論文 参考訳(メタデータ) (2021-06-07T20:16:15Z) - Research of Damped Newton Stochastic Gradient Descent Method for Neural
Network Training [6.231508838034926]
勾配降下(SGD)のような一階法は、最近ディープニューラルネットワーク(DNN)を訓練するための一般的な最適化方法です。
本稿では、平均二乗誤差(MSE)の回帰問題とクロスエントロピー損失(CEL)の分類問題に対するDNNの訓練方法として、DN-SGD(Damped Newton Descent)とGGD-DN(Gradient Descent Damped Newton)を提案する。
提案手法はパラメータのごく一部を正確に計算し,計算コストを大幅に削減し,sgdよりも高速かつ高精度な学習プロセスを実現する。
論文 参考訳(メタデータ) (2021-03-31T02:07:18Z) - Learning Frequency Domain Approximation for Binary Neural Networks [68.79904499480025]
フーリエ周波数領域における符号関数の勾配を正弦関数の組み合わせを用いて推定し,BNNの訓練を行う。
いくつかのベンチマークデータセットとニューラルネットワークの実験により、この手法で学習したバイナリネットワークが最先端の精度を達成することが示されている。
論文 参考訳(メタデータ) (2021-03-01T08:25:26Z) - Feature Whitening via Gradient Transformation for Improved Convergence [3.5579740292581]
機能白化の複雑さの欠点に対処する。
サンプル変換を重み勾配への変換によって置き換える等価な手法をBサンプルの各バッチに適用する。
CIFAR と Imagenet データセットで実証された画像分類のためのResNet ベースのネットワークを用いて提案アルゴリズムを例示する。
論文 参考訳(メタデータ) (2020-10-04T11:30:20Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。