論文の概要: An iterative K-FAC algorithm for Deep Learning
- arxiv url: http://arxiv.org/abs/2101.00218v1
- Date: Fri, 1 Jan 2021 12:04:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 11:39:15.981605
- Title: An iterative K-FAC algorithm for Deep Learning
- Title(参考訳): 深層学習のための反復的K-FACアルゴリズム
- Authors: Yingshi Chen
- Abstract要約: K-FACの鍵は、フィッシャー情報行列(FIM)をブロック対角行列として近似することであり、各ブロックはクロネッカー因子の逆である。
本稿では,新しい反復K-FACアルゴリズムであるCG-FACを紹介する。
我々は,繰り返しCG-FACの時間とメモリの複雑さが,通常のK-FACアルゴリズムよりもはるかに小さいことを証明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Kronecker-factored Approximate Curvature (K-FAC) method is a high efficiency
second order optimizer for the deep learning. Its training time is less than
SGD(or other first-order method) with same accuracy in many large-scale
problems. The key of K-FAC is to approximates Fisher information matrix (FIM)
as a block-diagonal matrix where each block is an inverse of tiny Kronecker
factors. In this short note, we present CG-FAC -- an new iterative K-FAC
algorithm. It uses conjugate gradient method to approximate the nature
gradient. This CG-FAC method is matrix-free, that is, no need to generate the
FIM matrix, also no need to generate the Kronecker factors A and G. We prove
that the time and memory complexity of iterative CG-FAC is much less than that
of standard K-FAC algorithm.
- Abstract(参考訳): Kronecker-factored Approximate Curvature (K-FAC) 法は,ディープラーニングのための高効率2次最適化器である。
訓練時間はSGD(または他の一階法)よりも小さく、多くの大規模問題において同じ精度である。
k-fac の鍵はフィッシャー情報行列 (fim) をブロック対角行列として近似することであり、各ブロックは小さなクロネッカー因子の逆行列である。
本稿では,新しい反復K-FACアルゴリズムであるCG-FACを紹介する。
共役勾配法を用いて自然勾配を近似する。
このCG-FAC法は行列フリーであり、つまりFIM行列を生成する必要はなく、またKronecker因子AとGを生成する必要もない。
関連論文リスト
- Structured Inverse-Free Natural Gradient: Memory-Efficient & Numerically-Stable KFAC [26.275682325827706]
KFACのような二階法はニューラルネットトレーニングに有用である。
しかし、Kronecker因子は高密度であるため、メモリ非効率であることが多い。
我々は、逆フリーなKFAC更新を定式化し、Kronecker因子の構造を課す。
論文 参考訳(メタデータ) (2023-12-09T23:13:32Z) - Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - Brand New K-FACs: Speeding up K-FAC with Online Decomposition Updates [0.0]
K因子の指数平均構成パラダイムを活用し、オンライン数値線形代数手法を用いる。
そこで我々は,K因子逆更新法を提案し,層サイズを線形にスケールする。
また,線形にスケールする逆応用手法を提案する。
論文 参考訳(メタデータ) (2022-10-16T09:41:23Z) - Large-scale Optimization of Partial AUC in a Range of False Positive
Rates [51.12047280149546]
ROC曲線 (AUC) の下の領域は、機械学習において最も広く使われている分類モデルのパフォーマンス指標の1つである。
近年の封筒平滑化技術に基づく効率的な近似勾配降下法を開発した。
提案アルゴリズムは,効率のよい解法を欠くランク付けされた範囲損失の和を最小化するためにも利用できる。
論文 参考訳(メタデータ) (2022-03-03T03:46:18Z) - High-Dimensional Sparse Bayesian Learning without Covariance Matrices [66.60078365202867]
共分散行列の明示的な構成を避ける新しい推論手法を提案する。
本手法では, 数値線形代数と共役勾配アルゴリズムの対角線推定結果とを結合する。
いくつかのシミュレーションにおいて,本手法は計算時間とメモリにおける既存手法よりも拡張性が高い。
論文 参考訳(メタデータ) (2022-02-25T16:35:26Z) - Efficient Approximations of the Fisher Matrix in Neural Networks using
Kronecker Product Singular Value Decomposition [0.0]
自然勾配降下法は, 通常の勾配降下法よりも効率よく目的関数を最小化できることを示した。
ディープニューラルネットワークのトレーニングにおけるこのアプローチのボトルネックは、各イテレーションでFiher Information Matrix (FIM)に対応する大規模な密度の高い線形システムを解くことの禁止コストにある。
これは、正確なFIMまたは経験的なFIMの様々な近似を動機付けている。
最も洗練されたものは KFAC であり、Kronecker による FIM のブロック対角近似を含む。
わずかな追加費用だけで、精度の観点からのKFACの改良が提案されている。
論文 参考訳(メタデータ) (2022-01-25T12:56:17Z) - Breaking the Linear Iteration Cost Barrier for Some Well-known
Conditional Gradient Methods Using MaxIP Data-structures [49.73889315176884]
条件勾配法(CGM)は現代の機械学習で広く使われている。
ほとんどの取り組みは、全体の実行時間を短縮する手段として、イテレーションの数を減らすことに重点を置いています。
本稿では,多くの基本最適化アルゴリズムに対して,イテレーション毎のコストがパラメータ数にサブ線形である最初のアルゴリズムを示す。
論文 参考訳(メタデータ) (2021-11-30T05:40:14Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - A Trace-restricted Kronecker-Factored Approximation to Natural Gradient [32.41025119083869]
我々はTKFAC(Trace-restricted Kronecker-factored Approximate Curvature)と呼ばれるフィッシャー情報行列の新しい近似を提案する。
実験により,提案手法は,いくつかのディープネットワークアーキテクチャ上での最先端のアルゴリズムと比較して性能がよいことが示された。
論文 参考訳(メタデータ) (2020-11-21T07:47:14Z) - Two-Level K-FAC Preconditioning for Deep Learning [7.699428789159717]
ディープラーニングの文脈では、グラディエントDescentの収束を加速するために、多くの最適化手法が勾配共分散情報を使用する。
特に、アダグラード(Adagrad)から始まり、一見無限に現れる研究のラインは、いわゆる経験的フィッシャー行列の対角近似の使用を提唱している。
特に成功した方法はK-FAC(Kronecker-ed block-factored preconditioner)と呼ばれる方法である。
論文 参考訳(メタデータ) (2020-11-01T17:54:21Z) - Towards Minimax Optimal Reinforcement Learning in Factored Markov
Decision Processes [53.72166325215299]
エピソード因子化マルコフ決定過程(FMDP)における最小強化学習について検討する。
第一に、分解された構造のリッチなクラスに対する最小限の後悔の保証を達成する。
2つ目は、少し悪い後悔をしながら、より良い計算複雑性を楽しみます。
論文 参考訳(メタデータ) (2020-06-24T00:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。