論文の概要: Fractional moment-preserving initialization schemes for training deep
neural networks
- arxiv url: http://arxiv.org/abs/2005.11878v5
- Date: Sat, 13 Feb 2021 15:23:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 05:46:43.724750
- Title: Fractional moment-preserving initialization schemes for training deep
neural networks
- Title(参考訳): 深部ニューラルネットワーク学習のための分節モーメント保存初期化手法
- Authors: Mert Gurbuzbalaban, Yuanhan Hu
- Abstract要約: ディープニューラルネットワーク(DNN)に対する従来のアプローチは、プレアクティベーションの分散を保存するために、ランダムにネットワーク重みをサンプリングすることである。
本稿では,重み付き分布をモデル化することで,重み付けや事前活性化をモデル化できることを示す。
数値実験により,本手法が訓練および試験性能を向上させることを示す。
- 参考スコア(独自算出の注目度): 1.14219428942199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A traditional approach to initialization in deep neural networks (DNNs) is to
sample the network weights randomly for preserving the variance of
pre-activations. On the other hand, several studies show that during the
training process, the distribution of stochastic gradients can be heavy-tailed
especially for small batch sizes. In this case, weights and therefore
pre-activations can be modeled with a heavy-tailed distribution that has an
infinite variance but has a finite (non-integer) fractional moment of order $s$
with $s<2$. Motivated by this fact, we develop initialization schemes for fully
connected feed-forward networks that can provably preserve any given moment of
order $s \in (0, 2]$ over the layers for a class of activations including ReLU,
Leaky ReLU, Randomized Leaky ReLU, and linear activations. These generalized
schemes recover traditional initialization schemes in the limit $s \to 2$ and
serve as part of a principled theory for initialization. For all these schemes,
we show that the network output admits a finite almost sure limit as the number
of layers grows, and the limit is heavy-tailed in some settings. This sheds
further light into the origins of heavy tail during signal propagation in DNNs.
We prove that the logarithm of the norm of the network outputs, if properly
scaled, will converge to a Gaussian distribution with an explicit mean and
variance we can compute depending on the activation used, the value of s chosen
and the network width. We also prove that our initialization scheme avoids
small network output values more frequently compared to traditional approaches.
Furthermore, the proposed initialization strategy does not have an extra cost
during the training procedure. We show through numerical experiments that our
initialization can improve the training and test performance.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)の初期化に対する従来のアプローチは、プレアクティベーションの分散を保存するためにランダムにネットワーク重みをサンプリングすることである。
一方, トレーニング過程において, 確率勾配の分布は特に小バッチサイズの場合, 重み付け可能であることがいくつかの研究で示されている。
この場合、重みやプレアクティベーションは無限の分散を持つが、位数$s$と$s<2$の有限な(非整数的な)分数モーメントを持つ重み付き分布でモデル化することができる。
この事実を動機として、ReLU、Leaky ReLU、Randomized Leaky ReLU、線形アクティベーションを含む一連のアクティベーションのクラスに対して、オーダー$s \in (0, 2]$の任意の特定のモーメントを確実に保存できる完全連結フィードフォワードネットワークの初期化スキームを開発した。
これらの一般化スキームは、極限 $s \to 2$ で従来の初期化スキームを復元し、初期化の原理理論の一部として機能する。
これらすべてのスキームについて、ネットワーク出力は層数の増加に伴って有限に確実に制限され、いくつかの設定では制限は重み付けされることを示す。
これは、DNNにおける信号伝達中の重尾の起源にさらに光を当てる。
ネットワーク出力のノルムの対数は、適切にスケールすれば、使用したアクティベーション、選択したsの値、ネットワーク幅に応じて、明示的な平均と分散でガウス分布に収束することを示す。
また、我々の初期化スキームは従来のアプローチよりもネットワーク出力の小さな値がより頻繁に避けられることを証明します。
さらに,提案した初期化戦略はトレーニング期間中に余分なコストを伴わない。
数値実験を通して初期化がトレーニングとテストのパフォーマンスを向上させることを示した。
関連論文リスト
- Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Principles for Initialization and Architecture Selection in Graph Neural
Networks with ReLU Activations [17.51364577113718]
ReLUを活性化した有限幅グラフニューラルネットワーク(GNN)におけるアーキテクチャ選択の3つの原理を示す。
まず、よく知られた He-initialization の ReLU GNN への一意的な一般化を理論的に導出する。
第2に、有限幅バニラReLU GNNにおいて、固定アグリゲーション演算子を用いる場合、オーバースムーシングが大深度では避けられないことを証明する。
論文 参考訳(メタデータ) (2023-06-20T16:40:41Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Sharper analysis of sparsely activated wide neural networks with
trainable biases [103.85569570164404]
本研究は,ニューラル・タンジェント・カーネル(NTK)の勾配勾配による一層超過パラメータ化ReLUネットワークのトレーニング研究である。
驚くべきことに、スパシフィケーション後のネットワークは、元のネットワークと同じくらい高速に収束できることが示されている。
一般化境界は制限NTKの最小固有値に依存するため、この研究は制限NTKの最小固有値をさらに研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Dynamical Isometry for Residual Networks [8.21292084298669]
RISOTTO は ReLU 活性化機能を持つ残差ネットワークに対して, 有限深さ・幅でも完全な動的等尺性を実現することを示す。
実験では,FixupやSkipInitなど,バッチ正規化を廃止する手法よりも優れた手法が提案されている。
論文 参考訳(メタデータ) (2022-10-05T17:33:23Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - ZerO Initialization: Initializing Residual Networks with only Zeros and
Ones [44.66636787050788]
ディープニューラルネットワークは通常ランダムウェイトを持ち、トレーニング中に安定した信号伝達を保証するために適切に選択された初期分散を持つ。
ばらつきの選択方法にはコンセンサスがなく、レイヤーの数が増えるにつれて、これは難しくなります。
本研究では、広く使われているランダムウェイト初期化を、ゼロと1しか持たない残差ネットワークを初期化する完全決定論的初期化スキームZerOに置き換える。
驚くべきことに、ZerOはImageNetを含むさまざまな画像分類データセットに対して最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-10-25T06:17:33Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。