Fugu-MT 論文翻訳(概要): Fractional moment-preserving initialization schemes for training deep neural networks

論文の概要: Fractional moment-preserving initialization schemes for training deep neural networks

arxiv url: http://arxiv.org/abs/2005.11878v5
Date: Sat, 13 Feb 2021 15:23:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-29 05:46:43.724750
Title: Fractional moment-preserving initialization schemes for training deep neural networks
Title（参考訳）: 深部ニューラルネットワーク学習のための分節モーメント保存初期化手法
Authors: Mert Gurbuzbalaban, Yuanhan Hu
Abstract要約: ディープニューラルネットワーク(DNN)に対する従来のアプローチは、プレアクティベーションの分散を保存するために、ランダムにネットワーク重みをサンプリングすることである。本稿では,重み付き分布をモデル化することで,重み付けや事前活性化をモデル化できることを示す。数値実験により,本手法が訓練および試験性能を向上させることを示す。
参考スコア（独自算出の注目度）: 1.14219428942199
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A traditional approach to initialization in deep neural networks (DNNs) is to sample the network weights randomly for preserving the variance of pre-activations. On the other hand, several studies show that during the training process, the distribution of stochastic gradients can be heavy-tailed especially for small batch sizes. In this case, weights and therefore pre-activations can be modeled with a heavy-tailed distribution that has an infinite variance but has a finite (non-integer) fractional moment of order $s$ with $s<2$. Motivated by this fact, we develop initialization schemes for fully connected feed-forward networks that can provably preserve any given moment of order $s \in (0, 2]$ over the layers for a class of activations including ReLU, Leaky ReLU, Randomized Leaky ReLU, and linear activations. These generalized schemes recover traditional initialization schemes in the limit $s \to 2$ and serve as part of a principled theory for initialization. For all these schemes, we show that the network output admits a finite almost sure limit as the number of layers grows, and the limit is heavy-tailed in some settings. This sheds further light into the origins of heavy tail during signal propagation in DNNs. We prove that the logarithm of the norm of the network outputs, if properly scaled, will converge to a Gaussian distribution with an explicit mean and variance we can compute depending on the activation used, the value of s chosen and the network width. We also prove that our initialization scheme avoids small network output values more frequently compared to traditional approaches. Furthermore, the proposed initialization strategy does not have an extra cost during the training procedure. We show through numerical experiments that our initialization can improve the training and test performance.
Abstract（参考訳）: ディープニューラルネットワーク(DNN)の初期化に対する従来のアプローチは、プレアクティベーションの分散を保存するためにランダムにネットワーク重みをサンプリングすることである。一方, トレーニング過程において, 確率勾配の分布は特に小バッチサイズの場合, 重み付け可能であることがいくつかの研究で示されている。この場合、重みやプレアクティベーションは無限の分散を持つが、位数$s$と$s<2$の有限な(非整数的な)分数モーメントを持つ重み付き分布でモデル化することができる。この事実を動機として、ReLU、Leaky ReLU、Randomized Leaky ReLU、線形アクティベーションを含む一連のアクティベーションのクラスに対して、オーダー$s \in (0, 2]$の任意の特定のモーメントを確実に保存できる完全連結フィードフォワードネットワークの初期化スキームを開発した。これらの一般化スキームは、極限 $s \to 2$ で従来の初期化スキームを復元し、初期化の原理理論の一部として機能する。これらすべてのスキームについて、ネットワーク出力は層数の増加に伴って有限に確実に制限され、いくつかの設定では制限は重み付けされることを示す。これは、DNNにおける信号伝達中の重尾の起源にさらに光を当てる。ネットワーク出力のノルムの対数は、適切にスケールすれば、使用したアクティベーション、選択したsの値、ネットワーク幅に応じて、明示的な平均と分散でガウス分布に収束することを示す。また、我々の初期化スキームは従来のアプローチよりもネットワーク出力の小さな値がより頻繁に避けられることを証明します。さらに,提案した初期化戦略はトレーニング期間中に余分なコストを伴わない。数値実験を通して初期化がトレーニングとテストのパフォーマンスを向上させることを示した。

関連論文リスト

Deep activity propagation via weight initialization in spiking neural networks [10.69085409825724]
Spiking Neural Networks (SNN)は、スパーシリティや超低消費電力といったバイオインスパイアされた利点を提供する。ディープSNNは、実数値膜電位をバイナリスパイクに量子化することで、情報を処理し、伝達する。提案手法は, 従来の手法とは異なり, スパイクの損失を伴わずに, 深部SNNにおける活動の伝播を可能にすることを理論的に示す。
論文参考訳（メタデータ） (2024-10-01T11:02:34Z)
Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training [1.7205106391379021]
ReLULUアクティベーションを持つニューラルネットワークでは、出力中の断片的線形領域の数は、深さとともに指数関数的に増加する。トレーニングを通じて,ネットワークの重みをその領域に制限する,ネットワークの新たなパラメータ化を導入する。このアプローチにより、無作為な凸凸関数よりも数桁精度が高い凸凸関数の近似を学習することができる。
論文参考訳（メタデータ） (2023-11-29T19:09:48Z)
Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文参考訳（メタデータ） (2023-09-12T13:03:47Z)
Principles for Initialization and Architecture Selection in Graph Neural Networks with ReLU Activations [17.51364577113718]
ReLUを活性化した有限幅グラフニューラルネットワーク(GNN)におけるアーキテクチャ選択の3つの原理を示す。まず、よく知られた He-initialization の ReLU GNN への一意的な一般化を理論的に導出する。第2に、有限幅バニラReLU GNNにおいて、固定アグリゲーション演算子を用いる場合、オーバースムーシングが大深度では避けられないことを証明する。
論文参考訳（メタデータ） (2023-06-20T16:40:41Z)
Globally Optimal Training of Neural Networks with Threshold Activation Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文参考訳（メタデータ） (2023-03-06T18:59:13Z)
Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文参考訳（メタデータ） (2023-01-01T02:11:39Z)
Dynamical Isometry for Residual Networks [8.21292084298669]
RISOTTO は ReLU 活性化機能を持つ残差ネットワークに対して, 有限深さ・幅でも完全な動的等尺性を実現することを示す。実験では,FixupやSkipInitなど,バッチ正規化を廃止する手法よりも優れた手法が提案されている。
論文参考訳（メタデータ） (2022-10-05T17:33:23Z)
On the Effective Number of Linear Regions in Shallow Univariate ReLU Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文参考訳（メタデータ） (2022-05-18T16:57:10Z)
Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文参考訳（メタデータ） (2021-11-02T20:24:01Z)
ZerO Initialization: Initializing Residual Networks with only Zeros and Ones [44.66636787050788]
ディープニューラルネットワークは通常ランダムウェイトを持ち、トレーニング中に安定した信号伝達を保証するために適切に選択された初期分散を持つ。ばらつきの選択方法にはコンセンサスがなく、レイヤーの数が増えるにつれて、これは難しくなります。本研究では、広く使われているランダムウェイト初期化を、ゼロと1しか持たない残差ネットワークを初期化する完全決定論的初期化スキームZerOに置き換える。驚くべきことに、ZerOはImageNetを含むさまざまな画像分類データセットに対して最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2021-10-25T06:17:33Z)
On the Explicit Role of Initialization on the Convergence and Implicit Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。正方形損失はその最適値に指数関数的に収束することを示す。我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文参考訳（メタデータ） (2021-05-13T15:13:51Z)
Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。 Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文参考訳（メタデータ） (2020-04-20T18:12:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。