論文の概要: Kronecker-factored Quasi-Newton Methods for Convolutional Neural
Networks
- arxiv url: http://arxiv.org/abs/2102.06737v1
- Date: Fri, 12 Feb 2021 19:40:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:59:06.068193
- Title: Kronecker-factored Quasi-Newton Methods for Convolutional Neural
Networks
- Title(参考訳): Kronecker-factored Quasi-Newton Methods for Convolutional Neural Networks
- Authors: Yi Ren, Donald Goldfarb
- Abstract要約: KF-QN-CNNは、新しい準因子学習畳み込みニューラルネットワーク(CNN)である
KF-QN-CNNは一貫してすべてのテストで優れた性能を発揮しました。
- 参考スコア(独自算出の注目度): 10.175972095073282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Second-order methods have the capability of accelerating optimization by
using much richer curvature information than first-order methods. However, most
are impractical in a deep learning setting where the number of training
parameters is huge. In this paper, we propose KF-QN-CNN, a new
Kronecker-factored quasi-Newton method for training convolutional neural
networks (CNNs), where the Hessian is approximated by a layer-wise block
diagonal matrix and each layer's diagonal block is further approximated by a
Kronecker product corresponding to the structure of the Hessian restricted to
that layer. New damping and Hessian-action techniques for BFGS are designed to
deal with the non-convexity and the particularly large size of Kronecker
matrices in CNN models and convergence results are proved for a variant of
KF-QN-CNN under relatively mild conditions. KF-QN-CNN has memory requirements
comparable to first-order methods and much less per-iteration time complexity
than traditional second-order methods. Compared with state-of-the-art first-
and second-order methods on several CNN models, KF-QN-CNN consistently
exhibited superior performance in all of our tests.
- Abstract(参考訳): 二階法は一階法よりも豊かな曲率情報を用いることで最適化を加速する能力を持つ。
しかしながら、トレーニングパラメータの数が非常に多い深層学習環境では、ほとんどが非現実的です。
本稿では,畳み込みニューラルネットワーク(cnns)を学習するための,kf-qn-cnnを提案する。ここでは,ヘシアンは層毎ブロック対角行列で近似し,各層の対角ブロックは,その層に制限されたヘシアンの構造に対応するクロネッカー積で近似する。
比較的穏やかな条件下でのKF-QN-CNNの変種に対して,BFGSの新しい減衰・ヘシアン作用技術は,CNNモデルにおけるKronecker行列の非凸性と特に大きなサイズを扱うように設計されている。
KF-QN-CNNは1次法に匹敵するメモリ要件を持ち、従来の2次法よりも時間単位の複雑さがはるかに少ない。
KF-QN-CNNは,いくつかのCNNモデルにおける最先端の1次・2次手法と比較して,全ての試験において優れた性能を示した。
関連論文リスト
- Kronecker-Factored Approximate Curvature for Physics-Informed Neural Networks [3.7308074617637588]
PINN損失に対するKronecker-factored almost curvature (KFAC)を提案する。
我々のKFACベースの勾配は、小さな問題に対する高価な2階法と競合し、高次元のニューラルネットワークやPDEに好適にスケールし、一階法やLBFGSを一貫して上回ります。
論文 参考訳(メタデータ) (2024-05-24T14:36:02Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - Kronecker-Factored Approximate Curvature for Modern Neural Network
Architectures [85.76673783330334]
線形重み付け層の2つの異なる設定がクロネッカー型近似曲率(K-FAC)の2つの風味を動機付けている
重み付けをそれぞれ設定したディープ・リニア・ネットワークに対して正確であることを示す。
グラフニューラルネットワークと視覚変換器の両方をトレーニングするために、これらの2つのK-FACの違いをほとんど観測しない。
論文 参考訳(メタデータ) (2023-11-01T16:37:00Z) - Compacting Binary Neural Networks by Sparse Kernel Selection [58.84313343190488]
本稿は,BNNにおけるバイナリカーネルの分散化がほぼ不可能であることを示すものである。
我々は、選択過程をエンドツーエンドに最適化するだけでなく、選択したコードワードの非反復的占有を維持できる置換ストレートスルー推定器(PSTE)を開発した。
実験により,提案手法はモデルサイズとビット幅の計算コストの両方を削減し,同等の予算下での最先端のBNNと比較して精度の向上を実現する。
論文 参考訳(メタデータ) (2023-03-25T13:53:02Z) - Dual Convexified Convolutional Neural Networks [27.0231994885228]
二重凸畳み込みニューラルネットワーク(DCCNN)の枠組みを提案する。
このフレームワークでは、まず、凸化された畳み込みニューラルネットワーク(CCNN)から動機付けられた予備学習問題を導入する。
次に、KKT条件とフェンシェル共役条件を慎重に解析し、二重凸訓練プログラムを構築する。
論文 参考訳(メタデータ) (2022-05-27T15:45:08Z) - A Mini-Block Natural Gradient Method for Deep Neural Networks [12.48022619079224]
我々は、近似自然勾配法、ミニブロックフィッシャー(MBF)の収束性を提案し、解析する。
提案手法では,一般化の並列性を利用して,各層内の多数の行列を効率的に処理する。
論文 参考訳(メタデータ) (2022-02-08T20:01:48Z) - A Trace-restricted Kronecker-Factored Approximation to Natural Gradient [32.41025119083869]
我々はTKFAC(Trace-restricted Kronecker-factored Approximate Curvature)と呼ばれるフィッシャー情報行列の新しい近似を提案する。
実験により,提案手法は,いくつかのディープネットワークアーキテクチャ上での最先端のアルゴリズムと比較して性能がよいことが示された。
論文 参考訳(メタデータ) (2020-11-21T07:47:14Z) - Connecting Weighted Automata, Tensor Networks and Recurrent Neural
Networks through Spectral Learning [58.14930566993063]
我々は、形式言語と言語学からの重み付き有限オートマトン(WFA)、機械学習で使用されるリカレントニューラルネットワーク、テンソルネットワークの3つのモデル間の接続を提示する。
本稿では,連続ベクトル入力の列上に定義された線形2-RNNに対する最初の証明可能な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-19T15:28:00Z) - ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。
我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文 参考訳(メタデータ) (2020-09-04T20:41:47Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - Practical Quasi-Newton Methods for Training Deep Neural Networks [12.48022619079224]
トレーニングにおいて、勾配の$n$の変数と成分の数は、しばしば数千万の順序のものであり、ヘッセン元は$n2$要素を持つ。
ブロック対角行列によりヘッセンを近似し、勾配とヘッセンの構造を用いてこれらのブロックをさらに近似する。
DNNにおけるヘシアンの不確定かつ高度に可変な性質のため、BFGSとL-BFGSの近似の上限と下限を有界に保つための新しい減衰法も提案する。
論文 参考訳(メタデータ) (2020-06-16T02:27:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。