論文の概要: Two-Level K-FAC Preconditioning for Deep Learning
- arxiv url: http://arxiv.org/abs/2011.00573v3
- Date: Sun, 6 Dec 2020 21:35:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 23:39:26.936862
- Title: Two-Level K-FAC Preconditioning for Deep Learning
- Title(参考訳): 深層学習のための2レベルK-FACプレコンディショニング
- Authors: Nikolaos Tselepidis and Jonas Kohler and Antonio Orvieto
- Abstract要約: ディープラーニングの文脈では、グラディエントDescentの収束を加速するために、多くの最適化手法が勾配共分散情報を使用する。
特に、アダグラード(Adagrad)から始まり、一見無限に現れる研究のラインは、いわゆる経験的フィッシャー行列の対角近似の使用を提唱している。
特に成功した方法はK-FAC(Kronecker-ed block-factored preconditioner)と呼ばれる方法である。
- 参考スコア(独自算出の注目度): 7.699428789159717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the context of deep learning, many optimization methods use gradient
covariance information in order to accelerate the convergence of Stochastic
Gradient Descent. In particular, starting with Adagrad, a seemingly endless
line of research advocates the use of diagonal approximations of the so-called
empirical Fisher matrix in stochastic gradient-based algorithms, with the most
prominent one arguably being Adam. However, in recent years, several works cast
doubt on the theoretical basis of preconditioning with the empirical Fisher
matrix, and it has been shown that more sophisticated approximations of the
actual Fisher matrix more closely resemble the theoretically well-motivated
Natural Gradient Descent. One particularly successful variant of such methods
is the so-called K-FAC optimizer, which uses a Kronecker-factored
block-diagonal Fisher approximation as preconditioner. In this work, drawing
inspiration from two-level domain decomposition methods used as preconditioners
in the field of scientific computing, we extend K-FAC by enriching it with
off-diagonal (i.e. global) curvature information in a computationally efficient
way. We achieve this by adding a coarse-space correction term to the
preconditioner, which captures the global Fisher information matrix at a
coarser scale. We present a small set of experimental results suggesting
improved convergence behaviour of our proposed method.
- Abstract(参考訳): 深層学習の文脈において、多くの最適化手法は、確率的勾配降下の収束を加速するために勾配共分散情報を用いる。
特に、アダグラード(adagrad)から始まり、一見無限に見える一連の研究は、確率的勾配に基づくアルゴリズムにおいて、いわゆる経験的フィッシャー行列の対角近似の使用を提唱している。
しかし、近年では経験的なフィッシャー行列とのプレコンディショニングの理論的根拠にいくつかの作品が疑問を投げかけており、実際のフィッシャー行列のより洗練された近似は理論上よく動機づけられた自然勾配降下によく似ていることが示されている。
特に成功した方法のひとつにK-FACオプティマイザがあり、Kronecker-factored block-diagonal Fisher approximation をプリコンディショナーとして使用している。
本研究では,科学計算の分野においてプリコンディショナーとして用いられる2段階の領域分解法から着想を得て,非対角的(すなわちグローバル)曲率情報を用いてk-facを計算効率良く拡張する。
我々は,グローバルフィッシャー情報行列を粗いスケールでキャプチャするプリコンダクタに粗い空間補正項を追加することで,これを実現する。
本稿では,提案手法の収束挙動の改善を示唆する実験結果について述べる。
関連論文リスト
- Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - Natural Gradient Methods: Perspectives, Efficient-Scalable
Approximations, and Analysis [0.0]
Natural Gradient Descentは、情報幾何学によって動機付けられた2次最適化手法である。
一般的に使用されるヘッセン語の代わりにフィッシャー情報マトリックスを使用している。
2階法であることは、膨大な数のパラメータとデータを扱う問題で直接使用されることが不可能である。
論文 参考訳(メタデータ) (2023-03-06T04:03:56Z) - Efficient Approximations of the Fisher Matrix in Neural Networks using
Kronecker Product Singular Value Decomposition [0.0]
自然勾配降下法は, 通常の勾配降下法よりも効率よく目的関数を最小化できることを示した。
ディープニューラルネットワークのトレーニングにおけるこのアプローチのボトルネックは、各イテレーションでFiher Information Matrix (FIM)に対応する大規模な密度の高い線形システムを解くことの禁止コストにある。
これは、正確なFIMまたは経験的なFIMの様々な近似を動機付けている。
最も洗練されたものは KFAC であり、Kronecker による FIM のブロック対角近似を含む。
わずかな追加費用だけで、精度の観点からのKFACの改良が提案されている。
論文 参考訳(メタデータ) (2022-01-25T12:56:17Z) - Tensor Normal Training for Deep Learning Models [10.175972095073282]
我々は,新しい近似的自然勾配法,Normal Trainingを提案し,解析する。
実験では、TNTは1次法よりも優れた最適化性能を示した。
論文 参考訳(メタデータ) (2021-06-05T15:57:22Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Eigenvalue-corrected Natural Gradient Based on a New Approximation [31.1453204659019]
EKFAC(Eigenvalue-corrected Kronecker Factorization)はディープニューラルネットワーク(DNN)のトレーニング手法である。
本研究では,これら2つの手法のアイデアを組み合わせて,トレース制限された固有値補正クロネッカー因子化(TEKFAC)を提案する。
提案手法はKronecker-factored eigenbasisの下で不正確な再スケーリング係数を補正するが,Gaoらにより提案された新しい近似手法も検討する。
論文 参考訳(メタデータ) (2020-11-27T08:57:29Z) - A Trace-restricted Kronecker-Factored Approximation to Natural Gradient [32.41025119083869]
我々はTKFAC(Trace-restricted Kronecker-factored Approximate Curvature)と呼ばれるフィッシャー情報行列の新しい近似を提案する。
実験により,提案手法は,いくつかのディープネットワークアーキテクチャ上での最先端のアルゴリズムと比較して性能がよいことが示された。
論文 参考訳(メタデータ) (2020-11-21T07:47:14Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。