論文の概要: Continual Learning with Extended Kronecker-factored Approximate
Curvature
- arxiv url: http://arxiv.org/abs/2004.07507v1
- Date: Thu, 16 Apr 2020 07:58:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 20:53:05.220611
- Title: Continual Learning with Extended Kronecker-factored Approximate
Curvature
- Title(参考訳): 拡張Kronecker-factored Approximate Curvatureによる連続学習
- Authors: Janghyeon Lee, Hyeong Gwon Hong, Donggyu Joo, Junmo Kim
- Abstract要約: 本稿では,バッチ正規化層を含むニューラルネットワークの連続学習のための2次ペナルティ手法を提案する。
K-FAC(Kronecker-factored approximate curvature)はニューラルネットワークのヘシアンを実際に計算するために広く用いられている。
我々は、K-FAC法を拡張し、サンプル間関係を考慮し、ディープニューラルネットワークのヘシアンを適切に近似することができる。
- 参考スコア(独自算出の注目度): 33.44290346786496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a quadratic penalty method for continual learning of neural
networks that contain batch normalization (BN) layers. The Hessian of a loss
function represents the curvature of the quadratic penalty function, and a
Kronecker-factored approximate curvature (K-FAC) is used widely to practically
compute the Hessian of a neural network. However, the approximation is not
valid if there is dependence between examples, typically caused by BN layers in
deep network architectures. We extend the K-FAC method so that the
inter-example relations are taken into account and the Hessian of deep neural
networks can be properly approximated under practical assumptions. We also
propose a method of weight merging and reparameterization to properly handle
statistical parameters of BN, which plays a critical role for continual
learning with BN, and a method that selects hyperparameters without source task
data. Our method shows better performance than baselines in the permuted MNIST
task with BN layers and in sequential learning from the ImageNet classification
task to fine-grained classification tasks with ResNet-50, without any explicit
or implicit use of source task data for hyperparameter selection.
- Abstract(参考訳): 本稿では,バッチ正規化(BN)層を含むニューラルネットワークの連続学習のための2次ペナルティ手法を提案する。
損失関数の Hessian は2次ペナルティ関数の曲率を表し、Kronecker による近似曲率 (K-FAC) はニューラルネットワークの Hessian を実用的に計算するために広く用いられる。
しかし、この近似は、ディープネットワークアーキテクチャにおけるBN層によって引き起こされる例間に依存性がある場合、有効ではない。
我々は、K-FAC法を拡張し、サンプル間関係を考慮し、ディープニューラルネットワークのヘシアンを実用的な仮定で適切に近似することができる。
また、bnとの連続学習において重要な役割を果たすbnの統計パラメータを適切に扱うための重みのマージと再パラメータ化の手法と、ソースタスクデータ無しでハイパーパラメータを選択する手法を提案する。
本手法は,bn層を持つ置換mnistタスクおよびimagenet分類タスクからresnet-50による細粒度分類タスクへの逐次学習において,ハイパーパラメータ選択のためのソースタスクデータや暗黙的な使用をすることなく,ベースラインよりも優れた性能を示す。
関連論文リスト
- Concurrent Training and Layer Pruning of Deep Neural Networks [0.0]
トレーニングの初期段階において、ニューラルネットワークの無関係な層を特定し、排除できるアルゴリズムを提案する。
本研究では,非線形区間を切断した後にネットワークを流れる情報の流れを,非線形ネットワーク区間の周囲の残差接続を用いた構造を用いる。
論文 参考訳(メタデータ) (2024-06-06T23:19:57Z) - Kronecker-Factored Approximate Curvature for Physics-Informed Neural Networks [3.7308074617637588]
PINN損失に対するKronecker-factored almost curvature (KFAC)を提案する。
我々のKFACベースの勾配は、小さな問題に対する高価な2階法と競合し、高次元のニューラルネットワークやPDEに好適にスケールし、一階法やLBFGSを一貫して上回ります。
論文 参考訳(メタデータ) (2024-05-24T14:36:02Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Learning k-Level Structured Sparse Neural Networks Using Group Envelope Regularization [4.0554893636822]
制約のあるリソースに大規模ディープニューラルネットワークをデプロイするための新しいアプローチを導入する。
この手法は推論時間を短縮し、メモリ需要と消費電力を減らすことを目的とする。
論文 参考訳(メタデータ) (2022-12-25T15:40:05Z) - Critical Initialization of Wide and Deep Neural Networks through Partial
Jacobians: General Theory and Applications [6.579523168465526]
ネットワークの固有ヤコビアン(enmphpartial Jacobians)を導入し、層$l$におけるプレアクティベーションの微分として定義し、層$l_0leq l$におけるプレアクティベーションについて述べる。
我々は,部分ジャコビアンのノルムに対する再帰関係を導出し,これらの関係を利用して,LayerNormおよび/または残留接続を用いたディープ・完全連結ニューラルネットワークの臨界度を解析する。
論文 参考訳(メタデータ) (2021-11-23T20:31:42Z) - Proxy Convexity: A Unified Framework for the Analysis of Neural Networks
Trained by Gradient Descent [95.94432031144716]
学習ネットワークの分析のための統合された非最適化フレームワークを提案する。
既存の保証は勾配降下により統一することができることを示す。
論文 参考訳(メタデータ) (2021-06-25T17:45:00Z) - Spline parameterization of neural network controls for deep learning [0.0]
我々は、ニューラルネットワークの訓練可能なパラメータである係数の固定数のBスプライン基底関数を選択する。
スプラインベースのニューラルネットワークがハイパーパラメータに対する学習問題の堅牢性を高めることを数値的に示す。
論文 参考訳(メタデータ) (2021-02-27T19:35:45Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。