論文の概要: Eigenvalue-corrected Natural Gradient Based on a New Approximation
- arxiv url: http://arxiv.org/abs/2011.13609v1
- Date: Fri, 27 Nov 2020 08:57:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 02:48:28.068051
- Title: Eigenvalue-corrected Natural Gradient Based on a New Approximation
- Title(参考訳): 新しい近似に基づく固有値補正自然勾配
- Authors: Kai-Xin Gao, Xiao-Lei Liu, Zheng-Hai Huang, Min Wang, Shuangling Wang,
Zidong Wang, Dachuan Xu, Fan Yu
- Abstract要約: EKFAC(Eigenvalue-corrected Kronecker Factorization)はディープニューラルネットワーク(DNN)のトレーニング手法である。
本研究では,これら2つの手法のアイデアを組み合わせて,トレース制限された固有値補正クロネッカー因子化(TEKFAC)を提案する。
提案手法はKronecker-factored eigenbasisの下で不正確な再スケーリング係数を補正するが,Gaoらにより提案された新しい近似手法も検討する。
- 参考スコア(独自算出の注目度): 31.1453204659019
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Using second-order optimization methods for training deep neural networks
(DNNs) has attracted many researchers. A recently proposed method,
Eigenvalue-corrected Kronecker Factorization (EKFAC) (George et al., 2018),
proposes an interpretation of viewing natural gradient update as a diagonal
method, and corrects the inaccurate re-scaling factor in the Kronecker-factored
eigenbasis. Gao et al. (2020) considers a new approximation to the natural
gradient, which approximates the Fisher information matrix (FIM) to a constant
multiplied by the Kronecker product of two matrices and keeps the trace equal
before and after the approximation. In this work, we combine the ideas of these
two methods and propose Trace-restricted Eigenvalue-corrected Kronecker
Factorization (TEKFAC). The proposed method not only corrects the inexact
re-scaling factor under the Kronecker-factored eigenbasis, but also considers
the new approximation method and the effective damping technique proposed in
Gao et al. (2020). We also discuss the differences and relationships among the
Kronecker-factored approximations. Empirically, our method outperforms SGD with
momentum, Adam, EKFAC and TKFAC on several DNNs.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)のトレーニングに2次最適化手法を用いると、多くの研究者が惹きつけている。
最近提案されたEigenvalue-corrected Kronecker Factorization (EKFAC) (George et al., 2018) は、自然勾配の更新を対角法として解釈し、Kronecker-factored eigenbasisにおける不正確な再スケーリング係数を補正する。
Gao et al. (2020) は自然勾配に対する新たな近似を考察し、フィッシャー情報行列 (FIM) を2つの行列のクロネッカー積によって乗算された定数に近似し、近似の前と後のトレースを等しく保つ。
本研究では,これら2つの手法の考え方を組み合わせて,Trace-restricted Eigenvalue-corrected Kronecker Factorization (TEKFAC)を提案する。
提案手法は, kronecker-factored eigenbasis における不正確な再スケーリング係数を補正するだけでなく, gao et al. (2020) で提案した新しい近似法と有効減衰法を考察する。
また、クロネッカー分解近似の差と関係についても論じる。
実験により,本手法は複数のDNNにおいて,Adam,EKFAC,TKFAC等の運動量でSGDより優れていた。
関連論文リスト
- Trust-Region Sequential Quadratic Programming for Stochastic Optimization with Random Models [57.52124921268249]
本稿では,1次と2次の両方の定常点を見つけるための信頼逐次準計画法を提案する。
本手法は, 1次定常点に収束するため, 対象対象の近似を最小化して定義された各イテレーションの勾配ステップを計算する。
2階定常点に収束するため,本手法は負曲率を減少するヘッセン行列を探索する固有ステップも計算する。
論文 参考訳(メタデータ) (2024-09-24T04:39:47Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Decentralized Riemannian natural gradient methods with Kronecker-product
approximations [11.263837420265594]
本稿では,分散化多様体最適化問題の解法として,効率的な分散化自然勾配降下法(DRNGD)を提案する。
クロネッカー因子を介して通信を行うことにより、RFIMの高品質な近似を低コストで得ることができる。
論文 参考訳(メタデータ) (2023-03-16T19:36:31Z) - Variational Linearized Laplace Approximation for Bayesian Deep Learning [11.22428369342346]
変分スパースガウス過程(GP)を用いた線形ラプラス近似(LLA)の近似法を提案する。
本手法はGPの2つのRKHSの定式化に基づいており、予測平均として元のDNNの出力を保持する。
効率のよい最適化が可能で、結果としてトレーニングデータセットのサイズのサブ線形トレーニング時間が短縮される。
論文 参考訳(メタデータ) (2023-02-24T10:32:30Z) - Sharp Variance-Dependent Bounds in Reinforcement Learning: Best of Both
Worlds in Stochastic and Deterministic Environments [48.96971760679639]
マルコフ決定過程(MDP)の分散依存的後悔境界について検討する。
環境の微細な分散特性を特徴付けるための2つの新しい環境規範を提案する。
モデルに基づく手法では、MVPアルゴリズムの変種を設計する。
特に、この境界は極小かつ決定論的 MDP に対して同時に最適である。
論文 参考訳(メタデータ) (2023-01-31T06:54:06Z) - Efficient Approximations of the Fisher Matrix in Neural Networks using
Kronecker Product Singular Value Decomposition [0.0]
自然勾配降下法は, 通常の勾配降下法よりも効率よく目的関数を最小化できることを示した。
ディープニューラルネットワークのトレーニングにおけるこのアプローチのボトルネックは、各イテレーションでFiher Information Matrix (FIM)に対応する大規模な密度の高い線形システムを解くことの禁止コストにある。
これは、正確なFIMまたは経験的なFIMの様々な近似を動機付けている。
最も洗練されたものは KFAC であり、Kronecker による FIM のブロック対角近似を含む。
わずかな追加費用だけで、精度の観点からのKFACの改良が提案されている。
論文 参考訳(メタデータ) (2022-01-25T12:56:17Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - A Trace-restricted Kronecker-Factored Approximation to Natural Gradient [32.41025119083869]
我々はTKFAC(Trace-restricted Kronecker-factored Approximate Curvature)と呼ばれるフィッシャー情報行列の新しい近似を提案する。
実験により,提案手法は,いくつかのディープネットワークアーキテクチャ上での最先端のアルゴリズムと比較して性能がよいことが示された。
論文 参考訳(メタデータ) (2020-11-21T07:47:14Z) - Two-Level K-FAC Preconditioning for Deep Learning [7.699428789159717]
ディープラーニングの文脈では、グラディエントDescentの収束を加速するために、多くの最適化手法が勾配共分散情報を使用する。
特に、アダグラード(Adagrad)から始まり、一見無限に現れる研究のラインは、いわゆる経験的フィッシャー行列の対角近似の使用を提唱している。
特に成功した方法はK-FAC(Kronecker-ed block-factored preconditioner)と呼ばれる方法である。
論文 参考訳(メタデータ) (2020-11-01T17:54:21Z) - Improving predictions of Bayesian neural nets via local linearization [79.21517734364093]
ガウス・ニュートン近似は基礎となるベイズニューラルネットワーク(BNN)の局所線形化として理解されるべきである。
この線形化モデルを後部推論に使用するので、元のモデルではなく、この修正モデルを使用することも予測すべきである。
この修正された予測を"GLM predictive"と呼び、Laplace近似の共通不適合問題を効果的に解決することを示す。
論文 参考訳(メタデータ) (2020-08-19T12:35:55Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。