論文の概要: Structured Inverse-Free Natural Gradient: Memory-Efficient &
Numerically-Stable KFAC for Large Neural Nets
- arxiv url: http://arxiv.org/abs/2312.05705v2
- Date: Sat, 16 Dec 2023 07:37:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 19:23:19.070251
- Title: Structured Inverse-Free Natural Gradient: Memory-Efficient &
Numerically-Stable KFAC for Large Neural Nets
- Title(参考訳): 構造的逆自由自然勾配:大規模ニューラルネットワークのためのメモリ効率・数値安定KFAC
- Authors: Wu Lin, Felix Dangel, Runa Eschenhagen, Kirill Neklyudov, Agustinus
Kristiadi, Richard E. Turner, Alireza Makhzani
- Abstract要約: ディープラーニングのための2次法は、低精度トレーニングにおいてメモリ非効率であり、数値的に不安定である。
我々は,KFACの逆フリー更新と,Kronecker因子のそれぞれに構造を付与することにより,逆フリーな自然勾配勾配を求める手法を開発した。
大規模ニューラルネットワークでは、KFACとは対照的に、SINGDはメモリ効率が高く、数値的に堅牢であり、半精度でもAdamWより優れていることが示されている。
- 参考スコア(独自算出の注目度): 27.593295351509195
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Second-order methods for deep learning -- such as KFAC -- can be useful for
neural net training. However, they are often memory-inefficient and numerically
unstable for low-precision training since their preconditioning Kronecker
factors are dense, and require high-precision matrix inversion or
decomposition. Consequently, such methods are not widely used for training
large neural networks such as transformer-based models. We address these two
issues by (i) formulating an inverse-free update of KFAC and (ii) imposing
structures in each of the Kronecker factors, resulting in a method we term
structured inverse-free natural gradient descent (SINGD). On large modern
neural networks, we show that, in contrast to KFAC, SINGD is memory efficient
and numerically robust, and often outperforms AdamW even in half precision.
Hence, our work closes a gap between first-order and second-order methods in
modern low precision training for large neural nets.
- Abstract(参考訳): KFACのような深層学習のための二階法は、ニューラルネットトレーニングに有用である。
しかし、Kronecker因子は高密度であるため、メモリ非効率で数値的に不安定であり、高精度行列の逆転や分解を必要とする。
したがって、このような手法はトランスフォーマーベースモデルのような大規模なニューラルネットワークのトレーニングには広くは使われない。
この2つの問題を
i) KFACの逆フリー更新を定式化して
(II) Kronecker因子のそれぞれに構造を付与することにより、構造的逆自由な自然勾配降下(SINGD)と呼ぶことができる。
大規模ニューラルネットワークでは、KFACとは対照的に、SINGDはメモリ効率が高く、数値的に堅牢であり、半精度でもAdamWより優れていることが示されている。
したがって,我々の研究は,大規模ニューラルネットワークに対する最新の低精度トレーニングにおいて,一階法と二階法の間のギャップを閉じている。
関連論文リスト
- Kronecker-Factored Approximate Curvature for Physics-Informed Neural Networks [3.7308074617637588]
PINN損失に対するKronecker-factored almost curvature (KFAC)を提案する。
我々のKFACベースの勾配は、小さな問題に対する高価な2階法と競合し、高次元のニューラルネットワークやPDEに好適にスケールし、一階法やLBFGSを一貫して上回ります。
論文 参考訳(メタデータ) (2024-05-24T14:36:02Z) - Inverse-Free Fast Natural Gradient Descent Method for Deep Learning [52.0693420699086]
本稿では,第1期における逆転のみを必要とする高速な自然勾配降下法を提案する。
FNGDは1次法の平均和と類似性を示し、FNGDの計算複雑性は1次法に匹敵する。
論文 参考訳(メタデータ) (2024-03-06T05:13:28Z) - Kronecker-Factored Approximate Curvature for Modern Neural Network
Architectures [85.76673783330334]
線形重み付け層の2つの異なる設定がクロネッカー型近似曲率(K-FAC)の2つの風味を動機付けている
重み付けをそれぞれ設定したディープ・リニア・ネットワークに対して正確であることを示す。
グラフニューラルネットワークと視覚変換器の両方をトレーニングするために、これらの2つのK-FACの違いをほとんど観測しない。
論文 参考訳(メタデータ) (2023-11-01T16:37:00Z) - Guaranteed Approximation Bounds for Mixed-Precision Neural Operators [83.64404557466528]
我々は、ニューラル演算子学習が本質的に近似誤差を誘導する直感の上に構築する。
提案手法では,GPUメモリ使用量を最大50%削減し,スループットを58%向上する。
論文 参考訳(メタデータ) (2023-07-27T17:42:06Z) - Brand New K-FACs: Speeding up K-FAC with Online Decomposition Updates [0.0]
K因子の指数平均構成パラダイムを活用し、オンライン数値線形代数手法を用いる。
そこで我々は,K因子逆更新法を提案し,層サイズを線形にスケールする。
また,線形にスケールする逆応用手法を提案する。
論文 参考訳(メタデータ) (2022-10-16T09:41:23Z) - Gradient Descent on Neurons and its Link to Approximate Second-Order
Optimization [0.913755431537592]
Kronecker-Factored, block-diagonal curvature estimates (KFAC) は真の2次更新よりも有意に優れていることを示す。
また、KFACは重みよりも勾配降下を行う一階勾配アルゴリズムを近似することを示した。
論文 参考訳(メタデータ) (2022-01-28T17:06:26Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Kronecker-factored Quasi-Newton Methods for Convolutional Neural
Networks [10.175972095073282]
KF-QN-CNNは、新しい準因子学習畳み込みニューラルネットワーク(CNN)である
KF-QN-CNNは一貫してすべてのテストで優れた性能を発揮しました。
論文 参考訳(メタデータ) (2021-02-12T19:40:34Z) - An iterative K-FAC algorithm for Deep Learning [0.0]
K-FACの鍵は、フィッシャー情報行列(FIM)をブロック対角行列として近似することであり、各ブロックはクロネッカー因子の逆である。
本稿では,新しい反復K-FACアルゴリズムであるCG-FACを紹介する。
我々は,繰り返しCG-FACの時間とメモリの複雑さが,通常のK-FACアルゴリズムよりもはるかに小さいことを証明した。
論文 参考訳(メタデータ) (2021-01-01T12:04:01Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。