論文の概要: Gradient Descent on Neurons and its Link to Approximate Second-Order
Optimization
- arxiv url: http://arxiv.org/abs/2201.12250v1
- Date: Fri, 28 Jan 2022 17:06:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-31 15:53:25.854108
- Title: Gradient Descent on Neurons and its Link to Approximate Second-Order
Optimization
- Title(参考訳): ニューロンの勾配降下とその近似2次最適化への応用
- Authors: Frederik Benzing
- Abstract要約: Kronecker-Factored, block-diagonal curvature estimates (KFAC) は真の2次更新よりも有意に優れていることを示す。
また、KFACは重みよりも勾配降下を行う一階勾配アルゴリズムを近似することを示した。
- 参考スコア(独自算出の注目度): 0.913755431537592
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Second-order optimizers are thought to hold the potential to speed up neural
network training, but due to the enormous size of the curvature matrix, they
typically require approximations to be computationally tractable. The most
successful family of approximations are Kronecker-Factored, block-diagonal
curvature estimates (KFAC). Here, we combine tools from prior work to evaluate
exact second-order updates with careful ablations to establish a surprising
result: Due to its approximations, KFAC is not closely related to second-order
updates, and in particular, it significantly outperforms true second-order
updates. This challenges widely held believes and immediately raises the
question why KFAC performs so well. We answer this question by showing that
KFAC approximates a first-order algorithm, which performs gradient descent on
neurons rather than weights. Finally, we show that this optimizer often
improves over KFAC in terms of computational cost and data-efficiency.
- Abstract(参考訳): 二階オプティマイザはニューラルネットワークのトレーニングを高速化する可能性を持っていると考えられているが、曲率行列の巨大さのため、計算的に扱いやすい近似が必要となる。
最も成功した近似の族はクロネッカー因子付きブロック対角曲率推定 (kfac) である。
ここでは、事前の作業から得られたツールを組み合わせて、正確な2次更新を評価するとともに、驚くべき結果を得るための注意深いアブレーションを行う: その近似のため、kfacは2次更新と密接に関連しておらず、特に、真の2次更新よりも大幅に優れています。
この課題は広く信じられており、なぜKFACがうまく機能するのかという疑問を即座に提起している。
我々は、KFACが重みよりもニューロンに勾配降下を行う1次アルゴリズムを近似していることを示し、この問題に答える。
最後に、この最適化は計算コストとデータ効率の観点から、KFACよりも良くなることを示す。
関連論文リスト
- Kronecker-Factored Approximate Curvature for Physics-Informed Neural Networks [3.7308074617637588]
PINN損失に対するKronecker-factored almost curvature (KFAC)を提案する。
我々のKFACベースの勾配は、小さな問題に対する高価な2階法と競合し、高次元のニューラルネットワークやPDEに好適にスケールし、一階法やLBFGSを一貫して上回ります。
論文 参考訳(メタデータ) (2024-05-24T14:36:02Z) - Inverse-Free Fast Natural Gradient Descent Method for Deep Learning [52.0693420699086]
本稿では,第1期における逆転のみを必要とする高速な自然勾配降下法を提案する。
FNGDは1次法の平均和と類似性を示し、FNGDの計算複雑性は1次法に匹敵する。
論文 参考訳(メタデータ) (2024-03-06T05:13:28Z) - Structured Inverse-Free Natural Gradient: Memory-Efficient & Numerically-Stable KFAC [26.275682325827706]
KFACのような二階法はニューラルネットトレーニングに有用である。
しかし、Kronecker因子は高密度であるため、メモリ非効率であることが多い。
我々は、逆フリーなKFAC更新を定式化し、Kronecker因子の構造を課す。
論文 参考訳(メタデータ) (2023-12-09T23:13:32Z) - Kronecker-Factored Approximate Curvature for Modern Neural Network
Architectures [85.76673783330334]
線形重み付け層の2つの異なる設定がクロネッカー型近似曲率(K-FAC)の2つの風味を動機付けている
重み付けをそれぞれ設定したディープ・リニア・ネットワークに対して正確であることを示す。
グラフニューラルネットワークと視覚変換器の両方をトレーニングするために、これらの2つのK-FACの違いをほとんど観測しない。
論文 参考訳(メタデータ) (2023-11-01T16:37:00Z) - Brand New K-FACs: Speeding up K-FAC with Online Decomposition Updates [0.0]
K因子の指数平均構成パラダイムを活用し、オンライン数値線形代数手法を用いる。
そこで我々は,K因子逆更新法を提案し,層サイズを線形にスケールする。
また,線形にスケールする逆応用手法を提案する。
論文 参考訳(メタデータ) (2022-10-16T09:41:23Z) - TCT: Convexifying Federated Learning using Bootstrapped Neural Tangent
Kernels [141.29156234353133]
最先端の凸学習手法は、クライアントが異なるデータ分布を持つ場合、集中型よりもはるかにパフォーマンスが劣る。
我々は、この格差は、非NISTityが提示した課題に大きく起因していることを示す。
本稿では,Train-Convexify Neural Network (TCT) 手法を提案する。
論文 参考訳(メタデータ) (2022-07-13T16:58:22Z) - Scalable K-FAC Training for Deep Neural Networks with Distributed
Preconditioning [19.04755792575149]
本稿では,深層ニューラルネットワーク(DNN)トレーニングのための分散プレコンディショニング手法DP-KFACを提案する。
DP-KFACは計算オーバーヘッドを1.55x-1.65x、通信コストを2.79x-3.15x、メモリフットプリントを1.14x-1.47x削減する。
論文 参考訳(メタデータ) (2022-06-30T09:22:25Z) - An Accelerated Variance-Reduced Conditional Gradient Sliding Algorithm
for First-order and Zeroth-order Optimization [111.24899593052851]
条件勾配アルゴリズム(Frank-Wolfeアルゴリズムとも呼ばれる)は、最近、機械学習コミュニティで人気を取り戻している。
ARCSは、ゼロ階最適化において凸問題を解く最初のゼロ階条件勾配スライディング型アルゴリズムである。
1次最適化では、ARCSの収束結果は、勾配クエリのオラクルの数で、従来のアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-09-18T07:08:11Z) - Going Beyond Linear RL: Sample Efficient Neural Function Approximation [76.57464214864756]
2層ニューラルネットワークによる関数近似について検討する。
この結果は線形(あるいは可溶性次元)法で達成できることを大幅に改善する。
論文 参考訳(メタデータ) (2021-07-14T03:03:56Z) - A Trace-restricted Kronecker-Factored Approximation to Natural Gradient [32.41025119083869]
我々はTKFAC(Trace-restricted Kronecker-factored Approximate Curvature)と呼ばれるフィッシャー情報行列の新しい近似を提案する。
実験により,提案手法は,いくつかのディープネットワークアーキテクチャ上での最先端のアルゴリズムと比較して性能がよいことが示された。
論文 参考訳(メタデータ) (2020-11-21T07:47:14Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。