論文の概要: A Trace-restricted Kronecker-Factored Approximation to Natural Gradient
- arxiv url: http://arxiv.org/abs/2011.10741v1
- Date: Sat, 21 Nov 2020 07:47:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 23:16:38.507657
- Title: A Trace-restricted Kronecker-Factored Approximation to Natural Gradient
- Title(参考訳): トレース制限クロネッカー分解型自然勾配近似
- Authors: Kai-Xin Gao, Xiao-Lei Liu, Zheng-Hai Huang, Min Wang, Zidong Wang,
Dachuan Xu, Fan Yu
- Abstract要約: 我々はTKFAC(Trace-restricted Kronecker-factored Approximate Curvature)と呼ばれるフィッシャー情報行列の新しい近似を提案する。
実験により,提案手法は,いくつかのディープネットワークアーキテクチャ上での最先端のアルゴリズムと比較して性能がよいことが示された。
- 参考スコア(独自算出の注目度): 32.41025119083869
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Second-order optimization methods have the ability to accelerate convergence
by modifying the gradient through the curvature matrix. There have been many
attempts to use second-order optimization methods for training deep neural
networks. Inspired by diagonal approximations and factored approximations such
as Kronecker-Factored Approximate Curvature (KFAC), we propose a new
approximation to the Fisher information matrix (FIM) called Trace-restricted
Kronecker-factored Approximate Curvature (TKFAC) in this work, which can hold
the certain trace relationship between the exact and the approximate FIM. In
TKFAC, we decompose each block of the approximate FIM as a Kronecker product of
two smaller matrices and scaled by a coefficient related to trace. We
theoretically analyze TKFAC's approximation error and give an upper bound of
it. We also propose a new damping technique for TKFAC on convolutional neural
networks to maintain the superiority of second-order optimization methods
during training. Experiments show that our method has better performance
compared with several state-of-the-art algorithms on some deep network
architectures.
- Abstract(参考訳): 2階最適化法は、曲率行列を通して勾配を変更することで収束を加速する能力を有する。
ディープニューラルネットワークのトレーニングに2次最適化手法を使用する試みは数多くある。
本研究は,Kronecker-Factored Approximate Curvature (KFAC) のような対角近似および因子近似に着想を得て,この研究においてTKFAC (Trace-restricted Kronecker-factored Approximate Curvature) と呼ばれるフィッシャー情報行列 (FIM) に対する新たな近似を提案し,その精度と近似FIMの特定のトレース関係を保持する。
TKFACでは、近似FIMの各ブロックを2つの小さい行列のクロネッカー積として分解し、トレースに関連する係数でスケールする。
理論的には、TKFACの近似誤差を解析し、上限を与える。
また、畳み込みニューラルネットワーク上でのTKFACの新しい減衰手法を提案し、トレーニング中の2次最適化手法の優位性を維持する。
実験により,いくつかのディープネットワークアーキテクチャにおける最先端アルゴリズムと比較して,提案手法の性能が向上することを示した。
関連論文リスト
- Kronecker-Factored Approximate Curvature for Physics-Informed Neural Networks [3.7308074617637588]
PINN損失に対するKronecker-factored almost curvature (KFAC)を提案する。
我々のKFACベースの勾配は、小さな問題に対する高価な2階法と競合し、高次元のニューラルネットワークやPDEに好適にスケールし、一階法やLBFGSを一貫して上回ります。
論文 参考訳(メタデータ) (2024-05-24T14:36:02Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - A Mini-Block Natural Gradient Method for Deep Neural Networks [12.48022619079224]
我々は、近似自然勾配法、ミニブロックフィッシャー(MBF)の収束性を提案し、解析する。
提案手法では,一般化の並列性を利用して,各層内の多数の行列を効率的に処理する。
論文 参考訳(メタデータ) (2022-02-08T20:01:48Z) - Efficient Approximations of the Fisher Matrix in Neural Networks using
Kronecker Product Singular Value Decomposition [0.0]
自然勾配降下法は, 通常の勾配降下法よりも効率よく目的関数を最小化できることを示した。
ディープニューラルネットワークのトレーニングにおけるこのアプローチのボトルネックは、各イテレーションでFiher Information Matrix (FIM)に対応する大規模な密度の高い線形システムを解くことの禁止コストにある。
これは、正確なFIMまたは経験的なFIMの様々な近似を動機付けている。
最も洗練されたものは KFAC であり、Kronecker による FIM のブロック対角近似を含む。
わずかな追加費用だけで、精度の観点からのKFACの改良が提案されている。
論文 参考訳(メタデータ) (2022-01-25T12:56:17Z) - Eigenvalue-corrected Natural Gradient Based on a New Approximation [31.1453204659019]
EKFAC(Eigenvalue-corrected Kronecker Factorization)はディープニューラルネットワーク(DNN)のトレーニング手法である。
本研究では,これら2つの手法のアイデアを組み合わせて,トレース制限された固有値補正クロネッカー因子化(TEKFAC)を提案する。
提案手法はKronecker-factored eigenbasisの下で不正確な再スケーリング係数を補正するが,Gaoらにより提案された新しい近似手法も検討する。
論文 参考訳(メタデータ) (2020-11-27T08:57:29Z) - Two-Level K-FAC Preconditioning for Deep Learning [7.699428789159717]
ディープラーニングの文脈では、グラディエントDescentの収束を加速するために、多くの最適化手法が勾配共分散情報を使用する。
特に、アダグラード(Adagrad)から始まり、一見無限に現れる研究のラインは、いわゆる経験的フィッシャー行列の対角近似の使用を提唱している。
特に成功した方法はK-FAC(Kronecker-ed block-factored preconditioner)と呼ばれる方法である。
論文 参考訳(メタデータ) (2020-11-01T17:54:21Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。