論文の概要: A Comprehensive and Modularized Statistical Framework for Gradient Norm
Equality in Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2001.00254v1
- Date: Wed, 1 Jan 2020 17:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 09:21:41.786228
- Title: A Comprehensive and Modularized Statistical Framework for Gradient Norm
Equality in Deep Neural Networks
- Title(参考訳): ディープニューラルネットワークにおけるグラディエントノルム平等のための包括的でモジュール化された統計フレームワーク
- Authors: Zhaodong Chen, Lei Deng, Bangyan Wang, Guoqi Li, Yuan Xie
- Abstract要約: 本稿では,各ブロックにおける勾配ノルムの変化を計測するブロックダイナミックアイソメトリ(Block Dynamical Isometry)を提案する。
我々のフレームワークには、複雑なシリアル並列ハイブリッド接続を扱うための重要な定理がいくつか含まれている。
グラディエントノルム平等は、それらの背後にある普遍哲学であることがわかった。
- 参考スコア(独自算出の注目度): 24.423217399280087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, plenty of metrics have been proposed to identify networks
that are free of gradient explosion and vanishing. However, due to the
diversity of network components and complex serial-parallel hybrid connections
in modern DNNs, the evaluation of existing metrics usually requires strong
assumptions, complex statistical analysis, or has limited application fields,
which constraints their spread in the community. In this paper, inspired by the
Gradient Norm Equality and dynamical isometry, we first propose a novel metric
called Block Dynamical Isometry, which measures the change of gradient norm in
individual block. Because our Block Dynamical Isometry is norm-based, its
evaluation needs weaker assumptions compared with the original dynamical
isometry. To mitigate the challenging derivation, we propose a highly
modularized statistical framework based on free probability. Our framework
includes several key theorems to handle complex serial-parallel hybrid
connections and a library to cover the diversity of network components.
Besides, several sufficient prerequisites are provided. Powered by our metric
and framework, we analyze extensive initialization, normalization, and network
structures. We find that Gradient Norm Equality is a universal philosophy
behind them. Then, we improve some existing methods based on our analysis,
including an activation function selection strategy for initialization
techniques, a new configuration for weight normalization, and a depth-aware way
to derive coefficients in SeLU. Moreover, we propose a novel normalization
technique named second moment normalization, which is theoretically 30% faster
than batch normalization without accuracy loss. Last but not least, our
conclusions and methods are evidenced by extensive experiments on multiple
models over CIFAR10 and ImageNet.
- Abstract(参考訳): 近年、勾配の爆発や消滅のないネットワークを特定するために多くの指標が提案されている。
しかしながら、現代のdnnにおけるネットワークコンポーネントの多様性と複雑なシリアル-並列ハイブリッド接続のため、既存のメトリクスの評価は通常、強力な仮定、複雑な統計分析、あるいはコミュニティでの拡散を制限するアプリケーションフィールドの制限を必要とする。
本稿では, 勾配ノルム等式と動的等尺法に着想を得て, まず, 個別ブロックにおける勾配ノルムの変化を測定するブロック力学等尺法という新しい計量法を提案する。
我々のブロックダイナミックアイソメトリはノルムベースであるため、その評価は元の動的アイソメトリよりも弱い仮定を必要とする。
難解な導出を緩和するために,自由確率に基づく高度にモジュール化された統計フレームワークを提案する。
我々のフレームワークには、複雑なシリアル並列ハイブリッド接続を扱うための重要な定理と、ネットワークコンポーネントの多様性をカバーするライブラリが含まれている。
さらに、いくつかの十分な前提条件が提供される。
メトリックとフレームワークによって、我々は広範な初期化、正規化、ネットワーク構造を分析します。
勾配ノルム等式はそれらの背後にある普遍的な哲学である。
そこで本研究では,初期化手法のアクティベーション関数選択戦略,重み正規化のための新しい構成,SeLUの係数を導出する深さ認識手法など,既存の手法を改良する。
さらに, 理論上, 精度損失のないバッチ正規化よりも30%高速である, 第二モーメント正規化という新しい正規化手法を提案する。
最後に,CIFAR10 と ImageNet 上の複数のモデルに関する広範な実験により,結論と手法が実証された。
関連論文リスト
- A Unified Algebraic Perspective on Lipschitz Neural Networks [88.14073994459586]
本稿では,様々なタイプの1-Lipschitzニューラルネットワークを統一する新しい視点を提案する。
そこで本研究では,SDP(Common semidefinite Programming)条件の解析解を求めることによって,既存の多くの手法を導出し,一般化することができることを示す。
SDPベースのLipschitz Layers (SLL) と呼ばれる我々のアプローチは、非自明で効率的な凸ポテンシャル層の一般化を設計できる。
論文 参考訳(メタデータ) (2023-03-06T14:31:09Z) - Probabilistic partition of unity networks for high-dimensional
regression problems [1.0227479910430863]
我々は高次元回帰問題におけるユニタリネットワーク(PPOU-Net)モデルの分割について検討する。
本稿では適応次元の減少に着目した一般的な枠組みを提案する。
PPOU-Netsは、数値実験において、同等の大きさのベースライン完全接続ニューラルネットワークを一貫して上回っている。
論文 参考訳(メタデータ) (2022-10-06T06:01:36Z) - Dynamical Isometry for Residual Networks [8.21292084298669]
RISOTTO は ReLU 活性化機能を持つ残差ネットワークに対して, 有限深さ・幅でも完全な動的等尺性を実現することを示す。
実験では,FixupやSkipInitなど,バッチ正規化を廃止する手法よりも優れた手法が提案されている。
論文 参考訳(メタデータ) (2022-10-05T17:33:23Z) - Robustness Certificates for Implicit Neural Networks: A Mixed Monotone
Contractive Approach [60.67748036747221]
暗黙のニューラルネットワークは、競合性能とメモリ消費の削減を提供する。
入力逆流の摂動に関して、それらは不安定なままである。
本稿では,暗黙的ニューラルネットワークのロバスト性検証のための理論的および計算的枠組みを提案する。
論文 参考訳(メタデータ) (2021-12-10T03:08:55Z) - Critical Initialization of Wide and Deep Neural Networks through Partial
Jacobians: General Theory and Applications [6.579523168465526]
ネットワークの固有ヤコビアン(enmphpartial Jacobians)を導入し、層$l$におけるプレアクティベーションの微分として定義し、層$l_0leq l$におけるプレアクティベーションについて述べる。
我々は,部分ジャコビアンのノルムに対する再帰関係を導出し,これらの関係を利用して,LayerNormおよび/または残留接続を用いたディープ・完全連結ニューラルネットワークの臨界度を解析する。
論文 参考訳(メタデータ) (2021-11-23T20:31:42Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - Stabilizing Equilibrium Models by Jacobian Regularization [151.78151873928027]
ディープ均衡ネットワーク(Deep equilibrium Network, DEQs)は、単一非線形層の固定点を見つけるために従来の深さを推定する新しいモデルのクラスである。
本稿では、平衡モデルの学習を安定させるために、固定点更新方程式のヤコビアンを明示的に正規化するDECモデルの正規化スキームを提案する。
この正規化は計算コストを最小限に抑え、前方と後方の両方の固定点収束を著しく安定化させ、高次元の現実的な領域に順応することを示した。
論文 参考訳(メタデータ) (2021-06-28T00:14:11Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Dataless Model Selection with the Deep Frame Potential [45.16941644841897]
ネットワークをその固有の能力で定量化し、ユニークでロバストな表現を行う。
本稿では,表現安定性にほぼ関係するが,ネットワーク構造にのみ依存する最小限のコヒーレンス尺度であるディープフレームポテンシャルを提案する。
モデル選択の基準としての利用を検証するとともに,ネットワークアーキテクチャの多種多様な残差および密結合化について,一般化誤差との相関性を示す。
論文 参考訳(メタデータ) (2020-03-30T23:27:25Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。