論文の概要: Reconstructing Deep Neural Networks: Unleashing the Optimization Potential of Natural Gradient Descent
- arxiv url: http://arxiv.org/abs/2412.07441v1
- Date: Tue, 10 Dec 2024 11:57:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:38:38.295621
- Title: Reconstructing Deep Neural Networks: Unleashing the Optimization Potential of Natural Gradient Descent
- Title(参考訳): ディープニューラルネットワークの再構築:自然勾配の輝きの最適化の可能性
- Authors: Weihua Liu, Said Boumaraf, Jianwu Li, Chaochao Lin, Xiabi Liu, Lijuan Niu, Naoufel Werghi,
- Abstract要約: 本研究では、構造化自然勾配降下(SNGD)と呼ばれる深層ニューラルネットワークを学習するための新しい最適化手法を提案する。
提案手法は,ディープラーニングアプリケーションにおけるNGDのスケーラビリティと効率を大幅に向上させる可能性がある。
- 参考スコア(独自算出の注目度): 12.00557940490703
- License:
- Abstract: Natural gradient descent (NGD) is a powerful optimization technique for machine learning, but the computational complexity of the inverse Fisher information matrix limits its application in training deep neural networks. To overcome this challenge, we propose a novel optimization method for training deep neural networks called structured natural gradient descent (SNGD). Theoretically, we demonstrate that optimizing the original network using NGD is equivalent to using fast gradient descent (GD) to optimize the reconstructed network with a structural transformation of the parameter matrix. Thereby, we decompose the calculation of the global Fisher information matrix into the efficient computation of local Fisher matrices via constructing local Fisher layers in the reconstructed network to speed up the training. Experimental results on various deep networks and datasets demonstrate that SNGD achieves faster convergence speed than NGD while retaining comparable solutions. Furthermore, our method outperforms traditional GDs in terms of efficiency and effectiveness. Thus, our proposed method has the potential to significantly improve the scalability and efficiency of NGD in deep learning applications. Our source code is available at https://github.com/Chaochao-Lin/SNGD.
- Abstract(参考訳): 自然勾配降下(NGD)は機械学習の強力な最適化手法であるが、逆フィッシャー情報行列の計算複雑性は、深層ニューラルネットワークのトレーニングにおいてその応用を制限している。
この課題を克服するために,構造化自然勾配勾配勾配 (SNGD) と呼ばれる深層ニューラルネットワークを学習するための新しい最適化手法を提案する。
理論的には、NGDを用いた元のネットワークの最適化は、パラメータ行列の構造変換で再構成されたネットワークを最適化するために高速勾配降下(GD)と等価であることを示す。
そこで我々は,グローバルなフィッシャー情報行列の計算を,再構成ネットワーク内にローカルなフィッシャー層を構築することで,ローカルなフィッシャー行列の効率的な計算に分解し,トレーニングを高速化する。
様々なディープネットワークとデータセットの実験結果から、SNGDはNGDよりも高速な収束速度を達成し、同等のソリューションを維持していることが示された。
さらに,本手法は従来のGDよりも効率と有効性に優れていた。
したがって,本提案手法は,ディープラーニングアプリケーションにおけるNGDのスケーラビリティと効率を大幅に向上させる可能性がある。
ソースコードはhttps://github.com/Chaochao-Lin/SNGD.comで公開されています。
関連論文リスト
- Improving Generalization of Deep Neural Networks by Optimum Shifting [33.092571599896814]
本稿では,ニューラルネットワークのパラメータを最小値からフラット値に変化させる,近位シフトと呼ばれる新しい手法を提案する。
本手法は,ニューラルネットワークの入力と出力が固定された場合,ネットワーク内の行列乗算を,未決定線形方程式系として扱うことができることを示す。
論文 参考訳(メタデータ) (2024-05-23T02:31:55Z) - Fixing the NTK: From Neural Network Linearizations to Exact Convex
Programs [63.768739279562105]
学習目標に依存しない特定のマスクウェイトを選択する場合、このカーネルはトレーニングデータ上のゲートReLUネットワークのNTKと等価であることを示す。
この目標への依存の欠如の結果として、NTKはトレーニングセット上の最適MKLカーネルよりもパフォーマンスが良くない。
論文 参考訳(メタデータ) (2023-09-26T17:42:52Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Learning k-Level Structured Sparse Neural Networks Using Group Envelope Regularization [4.0554893636822]
制約のあるリソースに大規模ディープニューラルネットワークをデプロイするための新しいアプローチを導入する。
この手法は推論時間を短縮し、メモリ需要と消費電力を減らすことを目的とする。
論文 参考訳(メタデータ) (2022-12-25T15:40:05Z) - A Novel Structured Natural Gradient Descent for Deep Learning [3.0686953242470794]
我々は、ディープニューラルネットワークの構造を再構築し、従来の勾配降下(GD)を用いて新しいネットワークを最適化する。
実験結果から,提案手法はディープネットワークモデルの収束を加速し,GDよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2021-09-21T11:12:10Z) - Analytically Tractable Inference in Deep Neural Networks [0.0]
Tractable Approximate Inference (TAGI)アルゴリズムは、浅いフルコネクテッドニューラルネットワークのバックプロパゲーションに対する実行可能でスケーラブルな代替手段であることが示された。
従来のディープニューラルネットワークアーキテクチャをトレーニングするために、TAGIがバックプロパゲーションのパフォーマンスとどのように一致するか、または上回るかを実証しています。
論文 参考訳(メタデータ) (2021-03-09T14:51:34Z) - Local Critic Training for Model-Parallel Learning of Deep Neural
Networks [94.69202357137452]
そこで我々は,局所的批判訓練と呼ばれる新しいモデル並列学習手法を提案する。
提案手法は,畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の両方において,階層群の更新プロセスの分離に成功したことを示す。
また,提案手法によりトレーニングされたネットワークを構造最適化に利用できることを示す。
論文 参考訳(メタデータ) (2021-02-03T09:30:45Z) - A Dynamical View on Optimization Algorithms of Overparameterized Neural
Networks [23.038631072178735]
我々は、一般的に使用される最適化アルゴリズムの幅広いクラスについて考察する。
その結果、ニューラルネットワークの収束挙動を利用することができる。
このアプローチは他の最適化アルゴリズムやネットワーク理論にも拡張できると考えています。
論文 参考訳(メタデータ) (2020-10-25T17:10:22Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。