論文の概要: Critical initialization of wide and deep neural networks through partial
Jacobians: general theory and applications to LayerNorm
- arxiv url: http://arxiv.org/abs/2111.12143v1
- Date: Tue, 23 Nov 2021 20:31:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-26 01:47:09.406946
- Title: Critical initialization of wide and deep neural networks through partial
Jacobians: general theory and applications to LayerNorm
- Title(参考訳): 部分ジャコビアンによる広域深層ニューラルネットワークの臨界初期化:一般理論と層ノルムへの応用
- Authors: Darshil Doshi, Tianyu He, Andrey Gromov
- Abstract要約: ネットワークの部分的ジャコビアンを導入し、層$l$におけるプレアクティベーションの微分として定義する。
本研究では,部分ジャコビアンに対する再帰関係を導出し,その利用により,ディープネットワークの臨界度をLayerNormを用いて解析する。
- 参考スコア(独自算出の注目度): 5.1426720893909135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks are notorious for defying theoretical treatment.
However, when the number of parameters in each layer tends to infinity the
network function is a Gaussian process (GP) and quantitatively predictive
description is possible. Gaussian approximation allows to formulate criteria
for selecting hyperparameters, such as variances of weights and biases, as well
as the learning rate. These criteria rely on the notion of criticality defined
for deep neural networks. In this work we describe a new way to diagnose (both
theoretically and empirically) this criticality. To that end, we introduce
partial Jacobians of a network, defined as derivatives of preactivations in
layer $l$ with respect to preactivations in layer $l_0<l$. These quantities are
particularly useful when the network architecture involves many different
layers. We discuss various properties of the partial Jacobians such as their
scaling with depth and relation to the neural tangent kernel (NTK). We derive
the recurrence relations for the partial Jacobians and utilize them to analyze
criticality of deep MLP networks with (and without) LayerNorm. We find that the
normalization layer changes the optimal values of hyperparameters and critical
exponents. We argue that LayerNorm is more stable when applied to
preactivations, rather than activations due to larger correlation depth.
- Abstract(参考訳): ディープ・ニューラル・ネットワークは理論的治療に反する悪名高い。
しかし、各層内のパラメータ数が無限になる傾向がある場合、ネットワーク関数はガウス過程(gp)であり、定量的な予測記述が可能である。
ガウス近似は、ウェイトやバイアスのばらつきや学習率などのハイパーパラメータを選択するための基準を定式化することができる。
これらの基準は、ディープニューラルネットワークで定義される臨界の概念に依存している。
本研究では、この臨界性を(理論的にも経験的にも)診断する新しい方法について述べる。
この目的のために、ネットワークの部分ジャコビアンを導入する。これは、$l_0<l$ 層におけるプリアクティベーションに対する、$l$層におけるプリアクティベーションの導出として定義される。
これらの量は、ネットワークアーキテクチャが多くの異なるレイヤを含む場合に特に有用である。
部分ジャコビアンの深度によるスケーリングやニューラルタンジェントカーネル(NTK)との関係など,様々な特性について論じる。
本研究では, 部分的ヤコビアンに対する再帰関係を導出し, 層Norm を用いて深層 MLP ネットワークの臨界度を解析する。
正規化層はハイパーパラメータと臨界指数の最適値を変化させる。
プレアクティベーションに適用すると,相関深さが大きいため,アクティベーションよりもレイヤノルムの方が安定である。
関連論文リスト
- Wide Neural Networks as Gaussian Processes: Lessons from Deep
Equilibrium Models [16.07760622196666]
本研究では,層間における共有重み行列を持つ無限深度ニューラルネットワークであるDeep equilibrium Model (DEQ)について検討する。
解析により,DEC層の幅が無限大に近づくにつれ,ガウス過程に収束することが明らかとなった。
注目すべきは、この収束は深さと幅の限界が交換されても成り立つことである。
論文 参考訳(メタデータ) (2023-10-16T19:00:43Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Robust Training and Verification of Implicit Neural Networks: A
Non-Euclidean Contractive Approach [64.23331120621118]
本稿では,暗黙的ニューラルネットワークのトレーニングとロバスト性検証のための理論的および計算的枠組みを提案する。
組込みネットワークを導入し、組込みネットワークを用いて、元のネットワークの到達可能な集合の超近似として$ell_infty$-normボックスを提供することを示す。
MNISTデータセット上で暗黙的なニューラルネットワークをトレーニングするためにアルゴリズムを適用し、我々のモデルの堅牢性と、文献における既存のアプローチを通じてトレーニングされたモデルを比較する。
論文 参考訳(メタデータ) (2022-08-08T03:13:24Z) - Generalization Error Bounds for Iterative Recovery Algorithms Unfolded
as Neural Networks [6.173968909465726]
線形測定の少ないスパース再構成に適したニューラルネットワークの一般クラスを導入する。
層間の重量共有を広範囲に行うことで、全く異なるニューラルネットワークタイプに対する統一的な分析を可能にします。
論文 参考訳(メタデータ) (2021-12-08T16:17:33Z) - Layer Adaptive Node Selection in Bayesian Neural Networks: Statistical
Guarantees and Implementation Details [0.5156484100374059]
スパースディープニューラルネットワークは、大規模研究において予測モデル構築に効率的であることが証明されている。
本稿では,スパイク・アンド・スラブ型ガウス先行法を用いて,訓練中のノード選択を可能にするベイズスパース解を提案する。
本研究は, 先行パラメータのキャラクタリゼーションとともに, 変動的後続一貫性の基本的な結果を確立する。
論文 参考訳(メタデータ) (2021-08-25T00:48:07Z) - Compressive Sensing and Neural Networks from a Statistical Learning
Perspective [4.561032960211816]
線形測定の少ないスパース再構成に適したニューラルネットワークのクラスに対する一般化誤差解析を提案する。
現実的な条件下では、一般化誤差は層数で対数的にしかスケールせず、測定数ではほとんど線形である。
論文 参考訳(メタデータ) (2020-10-29T15:05:43Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。