論文の概要: Batch Normalization Biases Residual Blocks Towards the Identity Function
in Deep Networks
- arxiv url: http://arxiv.org/abs/2002.10444v3
- Date: Wed, 9 Dec 2020 10:18:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 02:44:45.733892
- Title: Batch Normalization Biases Residual Blocks Towards the Identity Function
in Deep Networks
- Title(参考訳): バッチ正規化はディープネットワークのアイデンティティ関数に対する残差ブロックのバイアスを負う
- Authors: Soham De, Samuel L. Smith
- Abstract要約: バッチ正規化は、残留ネットワークの最大のトレーニング可能な深さを劇的に増加させる。
バッチ正規化は、スキップ接続に対する残留分岐をダウンスケールすることを示す。
バッチ正規化ネットワークは、より大きな学習率でトレーニングできるが、この効果は特定の計算方式でのみ有用であることを示す。
- 参考スコア(独自算出の注目度): 29.55745000070905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Batch normalization dramatically increases the largest trainable depth of
residual networks, and this benefit has been crucial to the empirical success
of deep residual networks on a wide range of benchmarks. We show that this key
benefit arises because, at initialization, batch normalization downscales the
residual branch relative to the skip connection, by a normalizing factor on the
order of the square root of the network depth. This ensures that, early in
training, the function computed by normalized residual blocks in deep networks
is close to the identity function (on average). We use this insight to develop
a simple initialization scheme that can train deep residual networks without
normalization. We also provide a detailed empirical study of residual networks,
which clarifies that, although batch normalized networks can be trained with
larger learning rates, this effect is only beneficial in specific compute
regimes, and has minimal benefits when the batch size is small.
- Abstract(参考訳): バッチ正規化は、残差ネットワークの最大訓練可能な深さを劇的に増加させ、この利点は、幅広いベンチマークにおける深い残差ネットワークの実証的成功に不可欠である。
この鍵となる利点は、初期化時にネットワーク深さの平方根の順序に対する正規化係数により、バッチ正規化がスキップ接続に対する残留分岐をダウンスケールするためである。
これにより、訓練の早い段階で、ディープネットワークの正規化残差ブロックによって計算された関数がアイデンティティ関数(平均)に近いことが保証される。
この知見を応用して、正規化なしで深層残留ネットワークを訓練できる簡単な初期化手法を開発する。
また、残差ネットワークに関する詳細な実証研究を行い、バッチ正規化ネットワークはより大きな学習率でトレーニングすることができるが、この効果は特定の計算環境においてのみ有益であり、バッチサイズが小さい場合のメリットは最小限であることを明らかにした。
関連論文リスト
- Feature Learning and Generalization in Deep Networks with Orthogonal Weights [1.7956122940209063]
独立なガウス分布からの数値的な重みを持つディープニューラルネットワークは臨界に調整することができる。
これらのネットワークは、ネットワークの深さとともに線形に成長する変動を示す。
行列のアンサンブルから得られるタン・アクティベーションと重みを持つ長方形のネットワークが、それに対応する事前アクティベーション・揺らぎを持つことを示す。
論文 参考訳(メタデータ) (2023-10-11T18:00:02Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Binarizing Sparse Convolutional Networks for Efficient Point Cloud
Analysis [93.55896765176414]
我々は,効率的な点群解析のためのBSC-Netと呼ばれるバイナリスパース畳み込みネットワークを提案する。
我々は,移動したスパース畳み込みにおけるサイトマッチングに最適なオプションを見つけるために,異なる検索戦略を採用している。
我々のBSC-Netは、我々の厳格なベースラインを大幅に改善し、最先端のネットワーク双対化手法より優れています。
論文 参考訳(メタデータ) (2023-03-27T13:47:06Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Dynamical Isometry for Residual Networks [8.21292084298669]
RISOTTO は ReLU 活性化機能を持つ残差ネットワークに対して, 有限深さ・幅でも完全な動的等尺性を実現することを示す。
実験では,FixupやSkipInitなど,バッチ正規化を廃止する手法よりも優れた手法が提案されている。
論文 参考訳(メタデータ) (2022-10-05T17:33:23Z) - The Unreasonable Effectiveness of Random Pruning: Return of the Most
Naive Baseline for Sparse Training [111.15069968583042]
ランダムプルーニングは、ニューラルネットワークのスパーシティを実現する最も単純な方法であることは間違いないが、トレーニング後のプルーニングやスパーストレーニングでは非競争的であると見なされている。
我々は、スクラッチからランダムに切断されたネットワークをスクラッチからスクラッチ的に訓練することで、その密度の高い等価性の性能に一致することを実証的に実証した。
以上の結果から,大規模なスパーストレーニングを行う余地はより大きいことが示唆され,スポーシティのメリットは慎重に設計されたプルーニングを超えて普遍的である可能性が示唆された。
論文 参考訳(メタデータ) (2022-02-05T21:19:41Z) - Pairwise Margin Maximization for Deep Neural Networks [2.696411477487268]
重量減衰正則化項は、訓練中に表現性を制限し、過度な適合を回避し、一般化を改善するために広く用いられる。
予測分類が切り替わるまでインスタンスの最小変位量を計測するPMM(em Pairwise Margin Maximization)と呼ばれる新しい正規化手法を提案する。
我々は,PMMを用いたディープニューラルネットワークのトレーニングにおいて,標準正規化条件と比較して,経験的に大幅に改善したことを示す。
論文 参考訳(メタデータ) (2021-10-09T09:18:06Z) - Characterizing signal propagation to close the performance gap in
unnormalized ResNets [22.638397557336663]
バッチ正規化は、バッチ内のトレーニング例間の独立性を破り、計算とメモリオーバーヘッドを発生させ、しばしば予期せぬバグを引き起こす。
我々は,フォワードパス上での信号伝搬を特徴付ける簡易な解析ツールセットを提案し,これらのツールを用いて活性化正規化層を必要とせず,高パフォーマンスのresnetを設計する。
私たちの成功に重大なのは、最近提案された重量標準化の適応版です。
解析ツールは、チャネルごとのアクティベーション手段が深さとともに成長しないようにすることで、ReLUやSwishのアクティベーション機能付きネットワークにおける信号の保存方法を示す。
論文 参考訳(メタデータ) (2021-01-21T16:07:06Z) - ESPN: Extremely Sparse Pruned Networks [50.436905934791035]
簡単な反復マスク探索法により,非常に深いネットワークの最先端の圧縮を実現することができることを示す。
本アルゴリズムは,シングルショット・ネットワーク・プルーニング法とロッテ・ティケット方式のハイブリッド・アプローチを示す。
論文 参考訳(メタデータ) (2020-06-28T23:09:27Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z) - Depth Enables Long-Term Memory for Recurrent Neural Networks [0.0]
本稿では,スタートエンド分離ランク(Start-End separation rank)と呼ばれる時間的情報フローを支援するネットワークの能力を評価する。
より深い再帰的ネットワークは、浅いネットワークで支えられるものよりも高いスタートエンド分離ランクをサポートすることを証明している。
論文 参考訳(メタデータ) (2020-03-23T10:29:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。