論文の概要: A Mini-Block Natural Gradient Method for Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2202.04124v1
- Date: Tue, 8 Feb 2022 20:01:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-11 05:42:09.338249
- Title: A Mini-Block Natural Gradient Method for Deep Neural Networks
- Title(参考訳): 深層ニューラルネットワークのためのミニブロック自然勾配法
- Authors: Achraf Bahamou, Donald Goldfarb, Yi Ren
- Abstract要約: 我々は、近似自然勾配法、ミニブロックフィッシャー(MBF)の収束性を提案し、解析する。
提案手法では,一般化の並列性を利用して,各層内の多数の行列を効率的に処理する。
- 参考スコア(独自算出の注目度): 12.48022619079224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The training of deep neural networks (DNNs) is currently predominantly done
using first-order methods. Some of these methods (e.g., Adam, AdaGrad, and
RMSprop, and their variants) incorporate a small amount of curvature
information by using a diagonal matrix to precondition the stochastic gradient.
Recently, effective second-order methods, such as KFAC, K-BFGS, Shampoo, and
TNT, have been developed for training DNNs, by preconditioning the stochastic
gradient by layer-wise block-diagonal matrices. Here we propose and analyze the
convergence of an approximate natural gradient method, mini-block Fisher (MBF),
that lies in between these two classes of methods. Specifically, our method
uses a block-diagonal approximation to the Fisher matrix, where for each layer
in the DNN, whether it is convolutional or feed-forward and fully connected,
the associated diagonal block is also block-diagonal and is composed of a large
number of mini-blocks of modest size. Our novel approach utilizes the
parallelism of GPUs to efficiently perform computations on the large number of
matrices in each layer. Consequently, MBF's per-iteration computational cost is
only slightly higher than it is for first-order methods. Finally, the
performance of our proposed method is compared to that of several baseline
methods, on both Auto-encoder and CNN problems, to validate its effectiveness
both in terms of time efficiency and generalization power.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)のトレーニングは現在、主に1次手法で行われている。
これらの方法のいくつか(例えばAdam, AdaGrad, RMSprop など)は、確率勾配を前提に対角行列を用いて少量の曲率情報を組み込む。
近年, kfac, k-bfgs, shampoo, tntなどの有効な二階法が, 層状ブロック対角行列による確率勾配を前提条件として開発されている。
本稿では,これら2つの手法の中間に位置する近似自然勾配法であるmini-block fisher (mbf) の提案と解析を行う。
具体的には,DNNの各層が畳み込みでもフィードフォワードでも完全連結であっても,関連する対角線ブロックはブロック対角線であり,多数のミニブロックからなるフィッシャー行列に対するブロック対角線近似を用いる。
提案手法はGPUの並列性を利用して,各層における多数の行列の計算を効率的に行う。
したがって、mbf毎の計算コストは一階法に比べてわずかに高くない。
最後に,提案手法の性能を,オートエンコーダとCNNの両問題に基づくいくつかのベースライン法と比較し,時間効率と一般化パワーの両面での有効性を検証した。
関連論文リスト
- Low-rank extended Kalman filtering for online learning of neural
networks from streaming data [71.97861600347959]
非定常データストリームから非線形関数のパラメータを推定するための効率的なオンライン近似ベイズ推定アルゴリズムを提案する。
この方法は拡張カルマンフィルタ (EKF) に基づいているが、新しい低ランク+斜角行列分解法を用いている。
変分推論に基づく手法とは対照的に,本手法は完全に決定論的であり,ステップサイズチューニングを必要としない。
論文 参考訳(メタデータ) (2023-05-31T03:48:49Z) - Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for
Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。
提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。
数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文 参考訳(メタデータ) (2023-05-23T04:12:55Z) - High-Dimensional Sparse Bayesian Learning without Covariance Matrices [66.60078365202867]
共分散行列の明示的な構成を避ける新しい推論手法を提案する。
本手法では, 数値線形代数と共役勾配アルゴリズムの対角線推定結果とを結合する。
いくつかのシミュレーションにおいて,本手法は計算時間とメモリにおける既存手法よりも拡張性が高い。
論文 参考訳(メタデータ) (2022-02-25T16:35:26Z) - Fast Differentiable Matrix Square Root and Inverse Square Root [65.67315418971688]
微分可能な行列平方根と逆平方根を計算するためのより効率的な2つの変種を提案する。
前方伝搬には, Matrix Taylor Polynomial (MTP) を用いる方法と, Matrix Pad'e Approximants (MPA) を使用する方法がある。
一連の数値実験により、両方の手法がSVDやNSの繰り返しと比較してかなりスピードアップすることが示された。
論文 参考訳(メタデータ) (2022-01-29T10:00:35Z) - Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via
GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。
本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。
実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文 参考訳(メタデータ) (2021-09-10T07:01:15Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Kronecker-factored Quasi-Newton Methods for Convolutional Neural
Networks [10.175972095073282]
KF-QN-CNNは、新しい準因子学習畳み込みニューラルネットワーク(CNN)である
KF-QN-CNNは一貫してすべてのテストで優れた性能を発揮しました。
論文 参考訳(メタデータ) (2021-02-12T19:40:34Z) - A Trace-restricted Kronecker-Factored Approximation to Natural Gradient [32.41025119083869]
我々はTKFAC(Trace-restricted Kronecker-factored Approximate Curvature)と呼ばれるフィッシャー情報行列の新しい近似を提案する。
実験により,提案手法は,いくつかのディープネットワークアーキテクチャ上での最先端のアルゴリズムと比較して性能がよいことが示された。
論文 参考訳(メタデータ) (2020-11-21T07:47:14Z) - Practical Quasi-Newton Methods for Training Deep Neural Networks [12.48022619079224]
トレーニングにおいて、勾配の$n$の変数と成分の数は、しばしば数千万の順序のものであり、ヘッセン元は$n2$要素を持つ。
ブロック対角行列によりヘッセンを近似し、勾配とヘッセンの構造を用いてこれらのブロックをさらに近似する。
DNNにおけるヘシアンの不確定かつ高度に可変な性質のため、BFGSとL-BFGSの近似の上限と下限を有界に保つための新しい減衰法も提案する。
論文 参考訳(メタデータ) (2020-06-16T02:27:12Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。