論文の概要: Dynamical Isometry for Residual Networks
- arxiv url: http://arxiv.org/abs/2210.02411v1
- Date: Wed, 5 Oct 2022 17:33:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 14:47:03.167295
- Title: Dynamical Isometry for Residual Networks
- Title(参考訳): 残留ネットワークの動的アイソメトリ
- Authors: Advait Gadhikar and Rebekka Burkholz
- Abstract要約: RISOTTO は ReLU 活性化機能を持つ残差ネットワークに対して, 有限深さ・幅でも完全な動的等尺性を実現することを示す。
実験では,FixupやSkipInitなど,バッチ正規化を廃止する手法よりも優れた手法が提案されている。
- 参考スコア(独自算出の注目度): 8.21292084298669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The training success, training speed and generalization ability of neural
networks rely crucially on the choice of random parameter initialization. It
has been shown for multiple architectures that initial dynamical isometry is
particularly advantageous. Known initialization schemes for residual blocks,
however, miss this property and suffer from degrading separability of different
inputs for increasing depth and instability without Batch Normalization or lack
feature diversity. We propose a random initialization scheme, RISOTTO, that
achieves perfect dynamical isometry for residual networks with ReLU activation
functions even for finite depth and width. It balances the contributions of the
residual and skip branches unlike other schemes, which initially bias towards
the skip connections. In experiments, we demonstrate that in most cases our
approach outperforms initialization schemes proposed to make Batch
Normalization obsolete, including Fixup and SkipInit, and facilitates stable
training. Also in combination with Batch Normalization, we find that RISOTTO
often achieves the overall best result.
- Abstract(参考訳): ニューラルネットワークのトレーニング成功、トレーニング速度、一般化能力は、ランダムパラメータの初期化の選択に大きく依存する。
初期の動的等尺性は特に有利であることが、複数のアーキテクチャで示されている。
しかし、残余ブロックの初期化スキームは、この性質を見逃し、バッチ正規化や特徴多様性の欠如なしに、深さと不安定性を高めるために異なる入力の分解性に悩まされる。
本稿では,ReLUアクティベーション機能を持つ残差ネットワークに対して,有限深さ・幅でも完全な動的アイソメトリを実現するランダム初期化方式RISOTTOを提案する。
他のスキームとは異なり、残差とスキップブランチの貢献のバランスをとり、最初はスキップ接続に偏っている。
実験では、ほとんどのケースにおいて、バッチ正規化を時代遅れにするために提案された初期化スキームよりも優れており、安定したトレーニングが容易であることを示す。
また、バッチ正規化と組み合わせることで、RISOTTOが最高の結果をもたらすことがしばしばある。
関連論文リスト
- Principles for Initialization and Architecture Selection in Graph Neural
Networks with ReLU Activations [17.51364577113718]
ReLUを活性化した有限幅グラフニューラルネットワーク(GNN)におけるアーキテクチャ選択の3つの原理を示す。
まず、よく知られた He-initialization の ReLU GNN への一意的な一般化を理論的に導出する。
第2に、有限幅バニラReLU GNNにおいて、固定アグリゲーション演算子を用いる場合、オーバースムーシングが大深度では避けられないことを証明する。
論文 参考訳(メタデータ) (2023-06-20T16:40:41Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - ZerO Initialization: Initializing Residual Networks with only Zeros and
Ones [44.66636787050788]
ディープニューラルネットワークは通常ランダムウェイトを持ち、トレーニング中に安定した信号伝達を保証するために適切に選択された初期分散を持つ。
ばらつきの選択方法にはコンセンサスがなく、レイヤーの数が増えるにつれて、これは難しくなります。
本研究では、広く使われているランダムウェイト初期化を、ゼロと1しか持たない残差ネットワークを初期化する完全決定論的初期化スキームZerOに置き換える。
驚くべきことに、ZerOはImageNetを含むさまざまな画像分類データセットに対して最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-10-25T06:17:33Z) - Path Regularization: A Convexity and Sparsity Inducing Regularization
for Parallel ReLU Networks [75.33431791218302]
本稿では,ディープニューラルネットワークのトレーニング問題について検討し,最適化環境に隠された凸性を明らかにするための解析的アプローチを提案する。
我々は、標準のディープ・ネットワークとResNetを特別なケースとして含む、ディープ・パラレルなReLUネットワークアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:00:36Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Activation Relaxation: A Local Dynamical Approximation to
Backpropagation in the Brain [62.997667081978825]
活性化緩和(AR)は、バックプロパゲーション勾配を力学系の平衡点として構成することで動機付けられる。
我々のアルゴリズムは、正しいバックプロパゲーション勾配に迅速かつ堅牢に収束し、単一のタイプの計算単位しか必要とせず、任意の計算グラフで操作できる。
論文 参考訳(メタデータ) (2020-09-11T11:56:34Z) - Beyond Signal Propagation: Is Feature Diversity Necessary in Deep Neural
Network Initialization? [31.122757815108884]
ほぼすべての重みを0ドルに初期化することにより、同一の特徴を持つ深層畳み込みネットワークを構築する。
このアーキテクチャは完全な信号伝搬と安定した勾配を可能にし、標準ベンチマークの精度も高い。
論文 参考訳(メタデータ) (2020-07-02T11:49:17Z) - Fractional moment-preserving initialization schemes for training deep
neural networks [1.14219428942199]
ディープニューラルネットワーク(DNN)に対する従来のアプローチは、プレアクティベーションの分散を保存するために、ランダムにネットワーク重みをサンプリングすることである。
本稿では,重み付き分布をモデル化することで,重み付けや事前活性化をモデル化できることを示す。
数値実験により,本手法が訓練および試験性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-05-25T01:10:01Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。