論文の概要: Practical Quasi-Newton Methods for Training Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2006.08877v3
- Date: Thu, 7 Jan 2021 19:36:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 19:53:16.631764
- Title: Practical Quasi-Newton Methods for Training Deep Neural Networks
- Title(参考訳): 深部ニューラルネットワーク訓練のための準ニュートン法
- Authors: Donald Goldfarb, Yi Ren, Achraf Bahamou
- Abstract要約: トレーニングにおいて、勾配の$n$の変数と成分の数は、しばしば数千万の順序のものであり、ヘッセン元は$n2$要素を持つ。
ブロック対角行列によりヘッセンを近似し、勾配とヘッセンの構造を用いてこれらのブロックをさらに近似する。
DNNにおけるヘシアンの不確定かつ高度に可変な性質のため、BFGSとL-BFGSの近似の上限と下限を有界に保つための新しい減衰法も提案する。
- 参考スコア(独自算出の注目度): 12.48022619079224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the development of practical stochastic quasi-Newton, and in
particular Kronecker-factored block-diagonal BFGS and L-BFGS methods, for
training deep neural networks (DNNs). In DNN training, the number of variables
and components of the gradient $n$ is often of the order of tens of millions
and the Hessian has $n^2$ elements. Consequently, computing and storing a full
$n \times n$ BFGS approximation or storing a modest number of (step, change in
gradient) vector pairs for use in an L-BFGS implementation is out of the
question. In our proposed methods, we approximate the Hessian by a
block-diagonal matrix and use the structure of the gradient and Hessian to
further approximate these blocks, each of which corresponds to a layer, as the
Kronecker product of two much smaller matrices. This is analogous to the
approach in KFAC, which computes a Kronecker-factored block-diagonal
approximation to the Fisher matrix in a stochastic natural gradient method.
Because the indefinite and highly variable nature of the Hessian in a DNN, we
also propose a new damping approach to keep the upper as well as the lower
bounds of the BFGS and L-BFGS approximations bounded. In tests on autoencoder
feed-forward neural network models with either nine or thirteen layers applied
to three datasets, our methods outperformed or performed comparably to KFAC and
state-of-the-art first-order stochastic methods.
- Abstract(参考訳): 本研究は,応用確率的準ニュートン,特にKronecker-factored block-diagonal BFGSおよびL-BFGS法による深層ニューラルネットワーク(DNN)の訓練手法の開発について考察する。
DNNトレーニングでは、勾配$n$の変数と成分の数はしばしば数千万の順序のものであり、ヘッセン元は$n^2$要素を持つ。
したがって、L-BFGS実装で使用する、完全な$n \times n$ BFGS近似の計算と保存、あるいは、控えめな数の(ステップ、勾配の変化)ベクトル対の保存は問題外である。
提案手法では, ブロック対角行列によりヘッシアンを近似し, 勾配とヘッシアンの構造を用いてこれらのブロックをさらに近似する。
これはKFACのアプローチに類似しており、Kronecker によるブロック対角近似を確率的自然勾配法でフィッシャー行列に計算する。
DNNにおけるヘシアンの不確定かつ高度に可変な性質のため、BFGSとL-BFGSの近似の上限と下限を有界に保つための新しい減衰法も提案する。
3つのデータセットに9層または13層を適用したオートエンコーダフィードフォワードニューラルネットワークモデルのテストでは、kfacおよび最先端の1次確率的手法に比較して提案手法が適用可能であった。
関連論文リスト
- Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - Controlling the Inductive Bias of Wide Neural Networks by Modifying the Kernel's Spectrum [18.10812063219831]
所望の固有値を持つカーネルに改良スペクトルカーネル(MSK)を導入する。
本研究では,勾配勾配の軌道を変化させる事前条件付き勾配降下法を提案する。
私たちの手法は計算効率が良く、実装も簡単です。
論文 参考訳(メタデータ) (2023-07-26T22:39:47Z) - Decomposed Diffusion Sampler for Accelerating Large-Scale Inverse
Problems [64.29491112653905]
本稿では, 拡散サンプリング法とクリロフ部分空間法を相乗的に組み合わせた, 新規で効率的な拡散サンプリング手法を提案する。
具体的には、ツイーディの公式による分母化標本における接空間がクリロフ部分空間を成すならば、その分母化データによるCGは、接空間におけるデータの整合性更新を確実に維持する。
提案手法は,従来の最先端手法よりも80倍以上高速な推論時間を実現する。
論文 参考訳(メタデータ) (2023-03-10T07:42:49Z) - A Mini-Block Natural Gradient Method for Deep Neural Networks [12.48022619079224]
我々は、近似自然勾配法、ミニブロックフィッシャー(MBF)の収束性を提案し、解析する。
提案手法では,一般化の並列性を利用して,各層内の多数の行列を効率的に処理する。
論文 参考訳(メタデータ) (2022-02-08T20:01:48Z) - Scaling Neural Tangent Kernels via Sketching and Random Features [53.57615759435126]
最近の研究報告では、NTKレグレッションは、小規模データセットでトレーニングされた有限範囲のニューラルネットワークより優れている。
我々は、アークコサインカーネルの拡張をスケッチして、NTKの近距離入力スパーシティ時間近似アルゴリズムを設計する。
CNTKの特徴をトレーニングした線形回帰器が,CIFAR-10データセット上での正確なCNTKの精度と150倍の高速化を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-15T04:44:52Z) - Research of Damped Newton Stochastic Gradient Descent Method for Neural
Network Training [6.231508838034926]
勾配降下(SGD)のような一階法は、最近ディープニューラルネットワーク(DNN)を訓練するための一般的な最適化方法です。
本稿では、平均二乗誤差(MSE)の回帰問題とクロスエントロピー損失(CEL)の分類問題に対するDNNの訓練方法として、DN-SGD(Damped Newton Descent)とGGD-DN(Gradient Descent Damped Newton)を提案する。
提案手法はパラメータのごく一部を正確に計算し,計算コストを大幅に削減し,sgdよりも高速かつ高精度な学習プロセスを実現する。
論文 参考訳(メタデータ) (2021-03-31T02:07:18Z) - Kronecker-factored Quasi-Newton Methods for Convolutional Neural
Networks [10.175972095073282]
KF-QN-CNNは、新しい準因子学習畳み込みニューラルネットワーク(CNN)である
KF-QN-CNNは一貫してすべてのテストで優れた性能を発揮しました。
論文 参考訳(メタデータ) (2021-02-12T19:40:34Z) - A Trace-restricted Kronecker-Factored Approximation to Natural Gradient [32.41025119083869]
我々はTKFAC(Trace-restricted Kronecker-factored Approximate Curvature)と呼ばれるフィッシャー情報行列の新しい近似を提案する。
実験により,提案手法は,いくつかのディープネットワークアーキテクチャ上での最先端のアルゴリズムと比較して性能がよいことが示された。
論文 参考訳(メタデータ) (2020-11-21T07:47:14Z) - Improving predictions of Bayesian neural nets via local linearization [79.21517734364093]
ガウス・ニュートン近似は基礎となるベイズニューラルネットワーク(BNN)の局所線形化として理解されるべきである。
この線形化モデルを後部推論に使用するので、元のモデルではなく、この修正モデルを使用することも予測すべきである。
この修正された予測を"GLM predictive"と呼び、Laplace近似の共通不適合問題を効果的に解決することを示す。
論文 参考訳(メタデータ) (2020-08-19T12:35:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。