論文の概要: Delving into Variance Transmission and Normalization: Shift of Average
Gradient Makes the Network Collapse
- arxiv url: http://arxiv.org/abs/2103.11590v1
- Date: Mon, 22 Mar 2021 05:40:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 14:31:26.774730
- Title: Delving into Variance Transmission and Normalization: Shift of Average
Gradient Makes the Network Collapse
- Title(参考訳): 分散伝送と正規化:平均勾配のシフトがネットワークの崩壊を引き起こす
- Authors: Yuxiang Liu, Jidong Ge, Chuanyi Li, and Jie Gui
- Abstract要約: 分散伝送の視点からバッチ正規化(BN)の効果を説明します。
平均勾配のシフトを解決するために,PWS(Parametric Weights Standardization)を提案する。
pwsは出力を正規化せずにネットワークを高速に収束させることができる。
- 参考スコア(独自算出の注目度): 9.848051975417116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Normalization operations are essential for state-of-the-art neural networks
and enable us to train a network from scratch with a large learning rate (LR).
We attempt to explain the real effect of Batch Normalization (BN) from the
perspective of variance transmission by investigating the relationship between
BN and Weights Normalization (WN). In this work, we demonstrate that the
problem of the shift of the average gradient will amplify the variance of every
convolutional (conv) layer. We propose Parametric Weights Standardization
(PWS), a fast and robust to mini-batch size module used for conv filters, to
solve the shift of the average gradient. PWS can provide the speed-up of BN.
Besides, it has less computation and does not change the output of a conv
layer. PWS enables the network to converge fast without normalizing the
outputs. This result enhances the persuasiveness of the shift of the average
gradient and explains why BN works from the perspective of variance
transmission. The code and appendix will be made available on
https://github.com/lyxzzz/PWSConv.
- Abstract(参考訳): 正規化操作は最先端のニューラルネットワークにとって不可欠であり、大きな学習率(LR)でネットワークをゼロからトレーニングすることができる。
本稿では, BN と重み正規化 (WN) の関係について検討し, 分散伝達の観点からのバッチ正規化 (BN) の実効性を説明する。
本研究では,平均勾配のシフトの問題は,すべての畳み込み(conv)層の分散を増幅することを示す。
本稿では,コンブフィルタの高速かつ堅牢なミニバッチサイズモジュールであるPWS(Parametric Weights Standardization)を提案する。
PWS は BN の高速化を提供することができる。
さらに、計算量が減り、conv層の出力が変更されない。
PWSは、出力を正規化せずにネットワークを高速に収束させることができる。
この結果は平均勾配のシフトの説得性を高め、BNが分散伝達の観点から機能する理由を説明する。
コードと付録はhttps://github.com/lyxzzz/PWSConv.comで入手できる。
関連論文リスト
- Revisiting Data Augmentation for Rotational Invariance in Convolutional
Neural Networks [0.29127054707887967]
画像分類のためのCNNにおける回転不変性について検討する。
実験により、データ拡張だけで訓練されたネットワークは、通常の非回転の場合と同様に、回転した画像の分類がほぼ可能であることが示された。
論文 参考訳(メタデータ) (2023-10-12T15:53:24Z) - Batch Layer Normalization, A new normalization layer for CNNs and RNN [0.0]
本研究では, Batch Layer Normalization (BLN) と呼ばれる新しい正規化層を導入する。
バッチとレイヤの正規化の組み合わせとして、BLNはミニバッチの逆サイズに基づいて、最小バッチと特徴正規化を適切に重み付けする。
実験結果は,畳み込みニューラルネットワークと反復ニューラルネットワークの両方におけるBLNの適用ポテンシャルと,バッチ正規化および層正規化よりも高速な収束性を示す。
論文 参考訳(メタデータ) (2022-09-19T10:12:51Z) - Network Pruning via Feature Shift Minimization [8.593369249204132]
本稿では,CNNモデルを圧縮するための新しい特徴シフト最小化(FSM)手法を提案する。
提案手法は,様々なベンチマークネットワークやデータセット上での最先端性能を,広範な実験により検証する。
論文 参考訳(メタデータ) (2022-07-06T12:50:26Z) - B-cos Networks: Alignment is All We Need for Interpretability [136.27303006772294]
本稿では,深層ニューラルネットワーク(DNN)の学習における重み付けの促進による解釈可能性の向上に向けた新たな方向性を提案する。
B-コス変換は、完全なモデル計算を忠実に要約する単一の線形変換を誘導する。
VGGs、ResNets、InceptionNets、DenseNetsといった一般的なモデルに簡単に統合できることを示します。
論文 参考訳(メタデータ) (2022-05-20T16:03:29Z) - Network Quantization with Element-wise Gradient Scaling [30.06895253269116]
ネットワーク量子化は、ウェイトおよび/またはアクティベーションのビット幅を減らすことを目的とする。
ほとんどの方法はストレートスルー推定器(ste)を使用して量子化されたネットワークを訓練する。
本稿では、STEよりも優れた量子化ネットワークをトレーニングするための要素単位勾配スケーリング(EWGS)を提案する。
論文 参考訳(メタデータ) (2021-04-02T06:34:53Z) - BN-invariant sharpness regularizes the training model to better
generalization [72.97766238317081]
BN下等価ネットワークに対して一貫した値を与えるシャープネス測定法BN-Sharpnessを提案する。
我々はBNシャープネスを用いてトレーニングを正規化し、アルゴリズムを設計し、新しい正規化対象を最小化する。
論文 参考訳(メタデータ) (2021-01-08T10:23:24Z) - MimicNorm: Weight Mean and Last BN Layer Mimic the Dynamic of Batch
Normalization [60.36100335878855]
ネットワークトレーニングにおける収束と効率を改善するために,MimicNormという新しい正規化手法を提案する。
我々は、神経核(NTK)理論を利用して、我々の重み付けが活性化を弱め、BN層のようなカオス状態にネットワークを移行することを証明する。
MimicNormは、ResNetsやShuffleNetのような軽量ネットワークなど、さまざまなネットワーク構造に対して同様の精度を実現し、約20%のメモリ消費を削減している。
論文 参考訳(メタデータ) (2020-10-19T07:42:41Z) - Double Forward Propagation for Memorized Batch Normalization [68.34268180871416]
バッチ正規化(BN)は、ディープニューラルネットワーク(DNN)の設計における標準コンポーネントである。
より正確でロバストな統計値を得るために,複数の最近のバッチを考慮に入れた記憶型バッチ正規化(MBN)を提案する。
関連する手法と比較して、提案したMBNはトレーニングと推論の両方において一貫した振る舞いを示す。
論文 参考訳(メタデータ) (2020-10-10T08:48:41Z) - PowerNorm: Rethinking Batch Normalization in Transformers [96.14956636022957]
自然言語処理(NLP)におけるニューラルネットワーク(NN)モデルの正規化法は層正規化(LN)である
LN は BN (naive/vanilla) の使用が NLP タスクの大幅な性能低下をもたらすという経験的観察により好まれる。
本稿では,この問題を解決する新しい正規化手法である電力正規化(PN)を提案する。
論文 参考訳(メタデータ) (2020-03-17T17:50:26Z) - Embedding Propagation: Smoother Manifold for Few-Shot Classification [131.81692677836202]
本稿では, 組込み伝搬を非教師なし非パラメトリック正規化器として, 数ショット分類における多様体平滑化に用いることを提案する。
埋め込み伝播がより滑らかな埋め込み多様体を生み出すことを実証的に示す。
複数の半教師付き学習シナリオにおいて,埋め込み伝搬によりモデルの精度が最大16%向上することを示す。
論文 参考訳(メタデータ) (2020-03-09T13:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。