Fugu-MT 論文翻訳(概要): Critical Initialization of Wide and Deep Neural Networks through Partial Jacobians: General Theory and Applications

論文の概要: Critical Initialization of Wide and Deep Neural Networks through Partial Jacobians: General Theory and Applications

arxiv url: http://arxiv.org/abs/2111.12143v4
Date: Thu, 5 Oct 2023 22:44:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 17:23:47.594473
Title: Critical Initialization of Wide and Deep Neural Networks through Partial Jacobians: General Theory and Applications
Title（参考訳）: 部分ジャコビアンによる広域深層ニューラルネットワークの臨界初期化:一般理論と応用
Authors: Darshil Doshi, Tianyu He, Andrey Gromov
Abstract要約: ネットワークの固有ヤコビアン(enmphpartial Jacobians)を導入し、層$l$におけるプレアクティベーションの微分として定義し、層$l_0leq l$におけるプレアクティベーションについて述べる。我々は,部分ジャコビアンのノルムに対する再帰関係を導出し,これらの関係を利用して,LayerNormおよび/または残留接続を用いたディープ・完全連結ニューラルネットワークの臨界度を解析する。
参考スコア（独自算出の注目度）: 6.579523168465526
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep neural networks are notorious for defying theoretical treatment. However, when the number of parameters in each layer tends to infinity, the network function is a Gaussian process (GP) and quantitatively predictive description is possible. Gaussian approximation allows one to formulate criteria for selecting hyperparameters, such as variances of weights and biases, as well as the learning rate. These criteria rely on the notion of criticality defined for deep neural networks. In this work we describe a new practical way to diagnose criticality. We introduce \emph{partial Jacobians} of a network, defined as derivatives of preactivations in layer $l$ with respect to preactivations in layer $l_0\leq l$. We derive recurrence relations for the norms of partial Jacobians and utilize these relations to analyze criticality of deep fully connected neural networks with LayerNorm and/or residual connections. We derive and implement a simple and cheap numerical test that allows one to select optimal initialization for a broad class of deep neural networks; containing fully connected, convolutional and normalization layers. Using these tools we show quantitatively that proper stacking of the LayerNorm (applied to preactivations) and residual connections leads to an architecture that is critical for any initialization. Finally, we apply our methods to analyze ResNet and MLP-Mixer architectures; demonstrating the everywhere-critical regime.
Abstract（参考訳）: ディープ・ニューラル・ネットワークは理論的治療に反する悪名高い。しかし、各層内のパラメータ数が無限になる傾向がある場合、ネットワーク関数はガウス過程(gp)であり、定量的な予測記述が可能である。ガウス近似は、ウェイトやバイアスのばらつきや学習率などのハイパーパラメータを選択するための基準を定式化することができる。これらの基準は、ディープニューラルネットワークで定義される臨界の概念に依存している。本稿では, 臨界度診断のための新しい実用的手法について述べる。我々は、ネットワークの \emph{partial jacobians} を、$l_0\leq l$ 層のプリアクティベーションに関して、$l$ 層におけるプリアクティベーションの導出として定義する。我々は、部分ジャコビアンのノルムに対する再帰関係を導出し、これらの関係を利用して層ノルムおよび/または残差接続を持つ深い完全連結ニューラルネットワークの臨界性を分析する。我々は、完全連結、畳み込み、正規化層を含む、幅広いディープニューラルネットワークの最適な初期化を選択できる、単純で安価な数値テストの導出と実装を行う。これらのツールを使用して、layernorm(プリアクティベーションに対応)と残差接続の適切な積み重ねが、任意の初期化に不可欠なアーキテクチャにつながることを定量的に示します。最後に,ResNet および MLP-Mixer アーキテクチャの解析に本手法を適用し,至るところで臨界状態を示す。

関連論文リスト

Wide Neural Networks as Gaussian Processes: Lessons from Deep Equilibrium Models [16.07760622196666]
本研究では,層間における共有重み行列を持つ無限深度ニューラルネットワークであるDeep equilibrium Model (DEQ)について検討する。解析により,DEC層の幅が無限大に近づくにつれ,ガウス過程に収束することが明らかとなった。注目すべきは、この収束は深さと幅の限界が交換されても成り立つことである。
論文参考訳（メタデータ） (2023-10-16T19:00:43Z)
Globally Optimal Training of Neural Networks with Threshold Activation Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文参考訳（メタデータ） (2023-03-06T18:59:13Z)
Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文参考訳（メタデータ） (2023-01-01T02:11:39Z)
Robust Training and Verification of Implicit Neural Networks: A Non-Euclidean Contractive Approach [64.23331120621118]
本稿では,暗黙的ニューラルネットワークのトレーニングとロバスト性検証のための理論的および計算的枠組みを提案する。組込みネットワークを導入し、組込みネットワークを用いて、元のネットワークの到達可能な集合の超近似として$ell_infty$-normボックスを提供することを示す。 MNISTデータセット上で暗黙的なニューラルネットワークをトレーニングするためにアルゴリズムを適用し、我々のモデルの堅牢性と、文献における既存のアプローチを通じてトレーニングされたモデルを比較する。
論文参考訳（メタデータ） (2022-08-08T03:13:24Z)
Generalization Error Bounds for Iterative Recovery Algorithms Unfolded as Neural Networks [6.173968909465726]
線形測定の少ないスパース再構成に適したニューラルネットワークの一般クラスを導入する。層間の重量共有を広範囲に行うことで、全く異なるニューラルネットワークタイプに対する統一的な分析を可能にします。
論文参考訳（メタデータ） (2021-12-08T16:17:33Z)
Layer Adaptive Node Selection in Bayesian Neural Networks: Statistical Guarantees and Implementation Details [0.5156484100374059]
スパースディープニューラルネットワークは、大規模研究において予測モデル構築に効率的であることが証明されている。本稿では,スパイク・アンド・スラブ型ガウス先行法を用いて,訓練中のノード選択を可能にするベイズスパース解を提案する。本研究は, 先行パラメータのキャラクタリゼーションとともに, 変動的後続一貫性の基本的な結果を確立する。
論文参考訳（メタデータ） (2021-08-25T00:48:07Z)
Compressive Sensing and Neural Networks from a Statistical Learning Perspective [4.561032960211816]
線形測定の少ないスパース再構成に適したニューラルネットワークのクラスに対する一般化誤差解析を提案する。現実的な条件下では、一般化誤差は層数で対数的にしかスケールせず、測定数ではほとんど線形である。
論文参考訳（メタデータ） (2020-10-29T15:05:43Z)
Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文参考訳（メタデータ） (2020-07-31T01:57:47Z)
Modeling from Features: a Mean-field Framework for Over-parameterized Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文参考訳（メタデータ） (2020-07-03T01:37:16Z)
MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文参考訳（メタデータ） (2020-01-28T18:25:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。