論文の概要: Structured Inverse-Free Natural Gradient: Memory-Efficient & Numerically-Stable KFAC
- arxiv url: http://arxiv.org/abs/2312.05705v4
- Date: Tue, 23 Jul 2024 12:13:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 23:13:09.868497
- Title: Structured Inverse-Free Natural Gradient: Memory-Efficient & Numerically-Stable KFAC
- Title(参考訳): 構造的逆自由自然勾配:メモリ効率・数値安定KFAC
- Authors: Wu Lin, Felix Dangel, Runa Eschenhagen, Kirill Neklyudov, Agustinus Kristiadi, Richard E. Turner, Alireza Makhzani,
- Abstract要約: KFACのような二階法はニューラルネットトレーニングに有用である。
しかし、Kronecker因子は高密度であるため、メモリ非効率であることが多い。
我々は、逆フリーなKFAC更新を定式化し、Kronecker因子の構造を課す。
- 参考スコア(独自算出の注目度): 26.275682325827706
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Second-order methods such as KFAC can be useful for neural net training. However, they are often memory-inefficient since their preconditioning Kronecker factors are dense, and numerically unstable in low precision as they require matrix inversion or decomposition. These limitations render such methods unpopular for modern mixed-precision training. We address them by (i) formulating an inverse-free KFAC update and (ii) imposing structures in the Kronecker factors, resulting in structured inverse-free natural gradient descent (SINGD). On modern neural networks, we show that SINGD is memory-efficient and numerically robust, in contrast to KFAC, and often outperforms AdamW even in half precision. Our work closes a gap between first- and second-order methods in modern low-precision training.
- Abstract(参考訳): KFACのような二階法はニューラルネットトレーニングに有用である。
しかし、Kronecker因子は密度が高く、行列逆転や分解を必要とするため、数値的に低い精度で不安定であるため、メモリ非効率であることが多い。
これらの制限は、現代の混合精度訓練には不人気である。
私たちはそれらに対処します
i)逆フリーなKFAC更新を定式化し、
(II) Kronecker因子の構造を示唆し、構造的逆自由な自然勾配降下(SINGD)をもたらす。
現代のニューラルネットワークでは、SINGDはKFACとは対照的にメモリ効率が高く、数値的に堅牢であり、半精度でもAdamWより優れていることが示されている。
我々の研究は、現代の低精度トレーニングにおける一階法と二階法のギャップを埋める。
関連論文リスト
- Kronecker-Factored Approximate Curvature for Physics-Informed Neural Networks [3.7308074617637588]
PINN損失に対するKronecker-factored almost curvature (KFAC)を提案する。
我々のKFACベースの勾配は、小さな問題に対する高価な2階法と競合し、高次元のニューラルネットワークやPDEに好適にスケールし、一階法やLBFGSを一貫して上回ります。
論文 参考訳(メタデータ) (2024-05-24T14:36:02Z) - Inverse-Free Fast Natural Gradient Descent Method for Deep Learning [52.0693420699086]
本稿では,第1期における逆転のみを必要とする高速な自然勾配降下法を提案する。
FNGDは1次法の平均和と類似性を示し、FNGDの計算複雑性は1次法に匹敵する。
論文 参考訳(メタデータ) (2024-03-06T05:13:28Z) - Kronecker-Factored Approximate Curvature for Modern Neural Network
Architectures [85.76673783330334]
線形重み付け層の2つの異なる設定がクロネッカー型近似曲率(K-FAC)の2つの風味を動機付けている
重み付けをそれぞれ設定したディープ・リニア・ネットワークに対して正確であることを示す。
グラフニューラルネットワークと視覚変換器の両方をトレーニングするために、これらの2つのK-FACの違いをほとんど観測しない。
論文 参考訳(メタデータ) (2023-11-01T16:37:00Z) - Guaranteed Approximation Bounds for Mixed-Precision Neural Operators [83.64404557466528]
我々は、ニューラル演算子学習が本質的に近似誤差を誘導する直感の上に構築する。
提案手法では,GPUメモリ使用量を最大50%削減し,スループットを58%向上する。
論文 参考訳(メタデータ) (2023-07-27T17:42:06Z) - Brand New K-FACs: Speeding up K-FAC with Online Decomposition Updates [0.0]
K因子の指数平均構成パラダイムを活用し、オンライン数値線形代数手法を用いる。
そこで我々は,K因子逆更新法を提案し,層サイズを線形にスケールする。
また,線形にスケールする逆応用手法を提案する。
論文 参考訳(メタデータ) (2022-10-16T09:41:23Z) - Gradient Descent on Neurons and its Link to Approximate Second-Order
Optimization [0.913755431537592]
Kronecker-Factored, block-diagonal curvature estimates (KFAC) は真の2次更新よりも有意に優れていることを示す。
また、KFACは重みよりも勾配降下を行う一階勾配アルゴリズムを近似することを示した。
論文 参考訳(メタデータ) (2022-01-28T17:06:26Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Kronecker-factored Quasi-Newton Methods for Convolutional Neural
Networks [10.175972095073282]
KF-QN-CNNは、新しい準因子学習畳み込みニューラルネットワーク(CNN)である
KF-QN-CNNは一貫してすべてのテストで優れた性能を発揮しました。
論文 参考訳(メタデータ) (2021-02-12T19:40:34Z) - An iterative K-FAC algorithm for Deep Learning [0.0]
K-FACの鍵は、フィッシャー情報行列(FIM)をブロック対角行列として近似することであり、各ブロックはクロネッカー因子の逆である。
本稿では,新しい反復K-FACアルゴリズムであるCG-FACを紹介する。
我々は,繰り返しCG-FACの時間とメモリの複雑さが,通常のK-FACアルゴリズムよりもはるかに小さいことを証明した。
論文 参考訳(メタデータ) (2021-01-01T12:04:01Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。