論文の概要: Component-Wise Natural Gradient Descent -- An Efficient Neural Network
Optimization
- arxiv url: http://arxiv.org/abs/2210.05268v1
- Date: Tue, 11 Oct 2022 09:03:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 16:47:28.220023
- Title: Component-Wise Natural Gradient Descent -- An Efficient Neural Network
Optimization
- Title(参考訳): コンポーネントワイズ自然勾配降下 --効率的なニューラルネットワーク最適化
- Authors: Tran Van Sang and Mhd Irvan and Rie Shigetomi Yamaguchi and Toshiyuki
Nakata
- Abstract要約: Natural Gradient Descent(NGD)は、Fisher Information Matrix(FIM)の逆数による勾配降下を前提とした2次ニューラルネットワークトレーニングである。
本稿では Component-Wise Natural Gradient Descent (CW-NGD) という新しいNGD変種アルゴリズムを提案する。
CW-NGDは、最先端の1次法と2次法と比較して、収束するイテレーションを少なくする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Gradient Descent (NGD) is a second-order neural network training that
preconditions the gradient descent with the inverse of the Fisher Information
Matrix (FIM). Although NGD provides an efficient preconditioner, it is not
practicable due to the expensive computation required when inverting the FIM.
This paper proposes a new NGD variant algorithm named Component-Wise Natural
Gradient Descent (CW-NGD). CW-NGD is composed of 2 steps. Similar to several
existing works, the first step is to consider the FIM matrix as a
block-diagonal matrix whose diagonal blocks correspond to the FIM of each
layer's weights. In the second step, unique to CW-NGD, we analyze the layer's
structure and further decompose the layer's FIM into smaller segments whose
derivatives are approximately independent. As a result, individual layers' FIMs
are approximated in a block-diagonal form that trivially supports the
inversion. The segment decomposition strategy is varied by layer structure.
Specifically, we analyze the dense and convolutional layers and design their
decomposition strategies appropriately. In an experiment of training a network
containing these 2 types of layers, we empirically prove that CW-NGD requires
fewer iterations to converge compared to the state-of-the-art first-order and
second-order methods.
- Abstract(参考訳): Natural Gradient Descent (NGD) は、Fisher Information Matrix (FIM) の逆の勾配降下を前提とした2階ニューラルネットワークトレーニングである。
NGDは効率的なプレコンディショナーを提供するが、FIMを反転させるのに必要な高価な計算のために実行不可能である。
本稿では,CW-NGD (Component-Wise Natural Gradient Descent) と呼ばれる新しいNGD変種アルゴリズムを提案する。
cw-ngdは2段階からなる。
いくつかの既存の研究と同様に、最初のステップは、FIM行列を各層の重みのFIMに対応する対角行列であるブロック対角行列と考えることである。
CW-NGDに特有の第2ステップでは、層の構造を分析し、さらに微分がほぼ独立な小さなセグメントにFIMを分解する。
その結果、個々のレイヤのFIMは、インバージョンを自明に支持するブロック対角形に近似される。
セグメント分解戦略は層構造によって異なる。
具体的には,密集層と畳み込み層を分析し,その分解戦略を適切に設計する。
これらの2種類の層を含むネットワークをトレーニングする実験において、CW-NGDは最先端の1次法と2次法と比較して、収束するイテレーションを少なくすることを示した。
関連論文リスト
- Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [3.680127959836384]
暗黙の勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)よりも優れる。
IGDは線形収束速度で大域的に最適解を収束することを示す。
論文 参考訳(メタデータ) (2024-07-03T06:10:41Z) - Inverse-Free Fast Natural Gradient Descent Method for Deep Learning [52.0693420699086]
本稿では,第1期における逆転のみを必要とする高速な自然勾配降下法を提案する。
FNGDは1次法の平均和と類似性を示し、FNGDの計算複雑性は1次法に匹敵する。
論文 参考訳(メタデータ) (2024-03-06T05:13:28Z) - Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for
Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。
提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。
数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文 参考訳(メタデータ) (2023-05-23T04:12:55Z) - Analysis and Comparison of Two-Level KFAC Methods for Training Deep
Neural Networks [0.0]
層間の低周波相互作用を2段階法により復元する関心について検討する。
領域分解から着想を得て、異なる粗い空間を用いたKFACの2段階補正を提案し、評価した。
論文 参考訳(メタデータ) (2023-03-31T14:21:53Z) - WLD-Reg: A Data-dependent Within-layer Diversity Regularizer [98.78384185493624]
ニューラルネットワークは、勾配に基づく最適化と共同で訓練された階層構造に配置された複数の層で構成されている。
我々は、この従来の「中間層」フィードバックを補うために、同じ層内での活性化の多様性を促進するために、追加の「中間層」フィードバックを補うことを提案する。
本稿では,提案手法が複数のタスクにおける最先端ニューラルネットワークモデルの性能を向上させることを実証した広範な実証研究を提案する。
論文 参考訳(メタデータ) (2023-01-03T20:57:22Z) - A new perspective on probabilistic image modeling [92.89846887298852]
本稿では,密度推定,サンプリング,トラクタブル推論が可能な画像モデリングのための新しい確率論的手法を提案する。
DCGMMは、CNNのように、ランダムな初期条件からSGDによってエンドツーエンドに訓練することができる。
本研究は,近年のPCおよびSPNモデルと,推論,分類,サンプリングの観点から比較した。
論文 参考訳(メタデータ) (2022-03-21T14:53:57Z) - A Mini-Block Natural Gradient Method for Deep Neural Networks [12.48022619079224]
我々は、近似自然勾配法、ミニブロックフィッシャー(MBF)の収束性を提案し、解析する。
提案手法では,一般化の並列性を利用して,各層内の多数の行列を効率的に処理する。
論文 参考訳(メタデータ) (2022-02-08T20:01:48Z) - Cogradient Descent for Dependable Learning [64.02052988844301]
双線形最適化問題に対処するために,CoGDアルゴリズムに基づく信頼度の高い学習法を提案する。
CoGDは、ある変数がスパーシティ制約を持つ場合の双線形問題を解くために導入された。
また、特徴と重みの関連を分解するためにも使用できるため、畳み込みニューラルネットワーク(CNN)をより良く訓練するための我々の手法をさらに一般化することができる。
論文 参考訳(メタデータ) (2021-06-20T04:28:20Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - The duality structure gradient descent algorithm: analysis and applications to neural networks [0.0]
本稿では,非漸近的性能解析に寄与する双対構造勾配降下法(DSGD)を提案する。
いくつかのニューラルネットワークトレーニングシナリオにおいて,DSGDの動作を実証的に示す。
論文 参考訳(メタデータ) (2017-08-01T21:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。