論文の概要: Structured Inverse-Free Natural Gradient: Memory-Efficient &
Numerically-Stable KFAC for Large Neural Nets
- arxiv url: http://arxiv.org/abs/2312.05705v2
- Date: Sat, 16 Dec 2023 07:37:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 19:23:19.070251
- Title: Structured Inverse-Free Natural Gradient: Memory-Efficient &
Numerically-Stable KFAC for Large Neural Nets
- Title(参考訳): 構造的逆自由自然勾配:大規模ニューラルネットワークのためのメモリ効率・数値安定KFAC
- Authors: Wu Lin, Felix Dangel, Runa Eschenhagen, Kirill Neklyudov, Agustinus
Kristiadi, Richard E. Turner, Alireza Makhzani
- Abstract要約: ディープラーニングのための2次法は、低精度トレーニングにおいてメモリ非効率であり、数値的に不安定である。
我々は,KFACの逆フリー更新と,Kronecker因子のそれぞれに構造を付与することにより,逆フリーな自然勾配勾配を求める手法を開発した。
大規模ニューラルネットワークでは、KFACとは対照的に、SINGDはメモリ効率が高く、数値的に堅牢であり、半精度でもAdamWより優れていることが示されている。
- 参考スコア(独自算出の注目度): 27.593295351509195
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Second-order methods for deep learning -- such as KFAC -- can be useful for
neural net training. However, they are often memory-inefficient and numerically
unstable for low-precision training since their preconditioning Kronecker
factors are dense, and require high-precision matrix inversion or
decomposition. Consequently, such methods are not widely used for training
large neural networks such as transformer-based models. We address these two
issues by (i) formulating an inverse-free update of KFAC and (ii) imposing
structures in each of the Kronecker factors, resulting in a method we term
structured inverse-free natural gradient descent (SINGD). On large modern
neural networks, we show that, in contrast to KFAC, SINGD is memory efficient
and numerically robust, and often outperforms AdamW even in half precision.
Hence, our work closes a gap between first-order and second-order methods in
modern low precision training for large neural nets.
- Abstract(参考訳): KFACのような深層学習のための二階法は、ニューラルネットトレーニングに有用である。
しかし、Kronecker因子は高密度であるため、メモリ非効率で数値的に不安定であり、高精度行列の逆転や分解を必要とする。
したがって、このような手法はトランスフォーマーベースモデルのような大規模なニューラルネットワークのトレーニングには広くは使われない。
この2つの問題を
i) KFACの逆フリー更新を定式化して
(II) Kronecker因子のそれぞれに構造を付与することにより、構造的逆自由な自然勾配降下(SINGD)と呼ぶことができる。
大規模ニューラルネットワークでは、KFACとは対照的に、SINGDはメモリ効率が高く、数値的に堅牢であり、半精度でもAdamWより優れていることが示されている。
したがって,我々の研究は,大規模ニューラルネットワークに対する最新の低精度トレーニングにおいて,一階法と二階法の間のギャップを閉じている。
関連論文リスト
- Kronecker-Factored Approximate Curvature for Modern Neural Network
Architectures [85.76673783330334]
線形重み付け層の2つの異なる設定がクロネッカー型近似曲率(K-FAC)の2つの風味を動機付けている
重み付けをそれぞれ設定したディープ・リニア・ネットワークに対して正確であることを示す。
グラフニューラルネットワークと視覚変換器の両方をトレーニングするために、これらの2つのK-FACの違いをほとんど観測しない。
論文 参考訳(メタデータ) (2023-11-01T16:37:00Z) - Analysis and Comparison of Two-Level KFAC Methods for Training Deep
Neural Networks [0.0]
層間の低周波相互作用を2段階法により復元する関心について検討する。
領域分解から着想を得て、異なる粗い空間を用いたKFACの2段階補正を提案し、評価した。
論文 参考訳(メタデータ) (2023-03-31T14:21:53Z) - Precision Machine Learning [5.15188009671301]
様々な関数近似法を比較し,パラメータやデータの増加とともにスケールする方法について検討する。
ニューラルネットワークは、しばしば高次元の例において古典的近似法より優れていることが判明した。
我々は,ニューラルネットワークを極端に低損失に訓練する訓練手法を開発した。
論文 参考訳(メタデータ) (2022-10-24T17:58:30Z) - Gradient Descent on Neurons and its Link to Approximate Second-Order
Optimization [0.913755431537592]
Kronecker-Factored, block-diagonal curvature estimates (KFAC) は真の2次更新よりも有意に優れていることを示す。
また、KFACは重みよりも勾配降下を行う一階勾配アルゴリズムを近似することを示した。
論文 参考訳(メタデータ) (2022-01-28T17:06:26Z) - Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers [67.688697838109]
本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。
2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
論文 参考訳(メタデータ) (2021-11-29T09:30:06Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - Revisiting Recursive Least Squares for Training Deep Neural Networks [10.44340837533087]
再帰最小二乗法(RLS)アルゴリズムは、その高速収束のため、かつては小規模ニューラルネットワークのトレーニングに広く用いられていた。
従来のRSSアルゴリズムは、計算複雑性が高く、事前条件が多すぎるため、ディープニューラルネットワーク(DNN)のトレーニングには適さない。
本稿では,フィードフォワードニューラルネットワーク,畳み込みニューラルネットワーク,リカレントニューラルネットワークの3つの新しいRSS最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-07T17:43:51Z) - AC/DC: Alternating Compressed/DeCompressed Training of Deep Neural
Networks [78.62086125399831]
本稿では、ディープニューラルネットワーク(DNN)のAC/DCトレーニング(Alternating Compressed/DeCompressed)と呼ばれる一般的なアプローチを提案する。
AC/DCは、類似の計算予算で既存のスパーストレーニング方法よりも精度が高い。
AC/DCの重要な特性は、密度とスパースモデルのコトレーニングが可能であり、トレーニングプロセスの終了時に正確なスパース・ダンスモデルペアが得られることである。
論文 参考訳(メタデータ) (2021-06-23T13:23:00Z) - Kronecker-factored Quasi-Newton Methods for Convolutional Neural
Networks [10.175972095073282]
KF-QN-CNNは、新しい準因子学習畳み込みニューラルネットワーク(CNN)である
KF-QN-CNNは一貫してすべてのテストで優れた性能を発揮しました。
論文 参考訳(メタデータ) (2021-02-12T19:40:34Z) - Feature Purification: How Adversarial Training Performs Robust Deep
Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。
この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文 参考訳(メタデータ) (2020-05-20T16:56:08Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。