論文の概要: How Does BN Increase Collapsed Neural Network Filters?
- arxiv url: http://arxiv.org/abs/2001.11216v2
- Date: Fri, 31 Jan 2020 01:31:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 11:35:11.408982
- Title: How Does BN Increase Collapsed Neural Network Filters?
- Title(参考訳): BNはどうやって崩壊したニューラルネットワークフィルタを増大させるのか?
- Authors: Sheng Zhou, Xinjiang Wang, Ping Luo, Litong Feng, Wenjie Li, Wei Zhang
- Abstract要約: フィルタ崩壊は、バッチ正規化(BN)と修正線形活性化関数(ReLU、Leaky ReLUなど)を持つディープニューラルネットワーク(DNN)でよく見られる。
本稿では, BN と同一の表現能力を持つポストシフト後の BN (psBN) を, トレーニング中に飽和した BN パラメータを再度トレーニングできる簡易かつ効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 34.886702335022015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving sparsity of deep neural networks (DNNs) is essential for network
compression and has drawn much attention. In this work, we disclose a harmful
sparsifying process called filter collapse, which is common in DNNs with batch
normalization (BN) and rectified linear activation functions (e.g. ReLU, Leaky
ReLU). It occurs even without explicit sparsity-inducing regularizations such
as $L_1$. This phenomenon is caused by the normalization effect of BN, which
induces a non-trainable region in the parameter space and reduces the network
capacity as a result. This phenomenon becomes more prominent when the network
is trained with large learning rates (LR) or adaptive LR schedulers, and when
the network is finetuned. We analytically prove that the parameters of BN tend
to become sparser during SGD updates with high gradient noise and that the
sparsifying probability is proportional to the square of learning rate and
inversely proportional to the square of the scale parameter of BN. To prevent
the undesirable collapsed filters, we propose a simple yet effective approach
named post-shifted BN (psBN), which has the same representation ability as BN
while being able to automatically make BN parameters trainable again as they
saturate during training. With psBN, we can recover collapsed filters and
increase the model performance in various tasks such as classification on
CIFAR-10 and object detection on MS-COCO2017.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)の空間性の向上は、ネットワーク圧縮に不可欠であり、多くの注目を集めている。
本研究では,バッチ正規化(BN)と正線形活性化関数(ReLU,Leaky ReLUなど)を持つDNNにおいて一般的であるフィルタ崩壊と呼ばれる有害な分散過程を明らかにする。
これは$l_1$のような明示的なスパーシティ誘導正規化なしでも発生する。
この現象は BN の正規化効果によって引き起こされ、パラメータ空間の非可変領域を誘導し、結果としてネットワーク容量を減少させる。
この現象は、ネットワークが大きな学習率(LR)または適応LRスケジューラで訓練され、ネットワークが微調整されたときに顕著になる。
本研究では, sgd更新時, 高勾配雑音時においてbnのパラメータがスパーサーになりやすいこと, 学習率の2乗に比例し, bnのスケールパラメータの2乗に逆比例していることを解析的に証明した。
望ましくない崩壊フィルタを防止するために, BNと同一の表現能力を持つポストシフト後のBN (psBN) という簡単な手法を提案する。
psBNにより、崩壊したフィルタを復元し、CIFAR-10の分類やMS-COCO2017のオブジェクト検出など、様々なタスクにおけるモデル性能を向上させることができる。
関連論文リスト
- BN-SCAFFOLD: controlling the drift of Batch Normalization statistics in Federated Learning [2.563180814294141]
機械学習(ML)モデルを分散的にトレーニングするための学習パラダイムとして、フェデレートラーニング(FL)が注目を集めている。
バッチ正規化(BN)はディープニューラルネットワーク(DNN)においてユビキタスである
BNは異種FLにおけるDNNの性能を阻害すると報告されている。
BN-DNN設定における分散還元アルゴリズムの収束を解析するための統一理論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-04T09:53:20Z) - An Adaptive Batch Normalization in Deep Learning [0.0]
バッチ正規化(BN)は、深層畳み込みニューラルネットワークのトレーニングを加速し、安定させる方法である。
本稿では、BNを必要とするデータとそれを必要としないデータを分離する、しきい値に基づく適応的なBNアプローチを提案する。
論文 参考訳(メタデータ) (2022-11-03T12:12:56Z) - Batch Normalization Explained [31.66311831317311]
バッチ正規化(BN)により、DN学習と推論性能が向上することを示す。
BNは、DNのスプライン分割の幾何学をデータに適合させる教師なし学習技術である。
また,ミニバッチ間のBN統計量の変動は,分割境界にランダムな乱摂動をもたらすことを示した。
論文 参考訳(メタデータ) (2022-09-29T13:41:27Z) - Batch Normalization Tells You Which Filter is Important [49.903610684578716]
我々は,事前学習したCNNのBNパラメータに基づいて,各フィルタの重要性を評価することによって,簡易かつ効果的なフィルタ刈取法を提案する。
CIFAR-10とImageNetの実験結果から,提案手法が優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-12-02T12:04:59Z) - Batch Normalization Preconditioning for Neural Network Training [7.709342743709842]
バッチ正規化(BN)は、ディープラーニングにおいて一般的でユビキタスな手法である。
BNは、非常に小さなミニバッチサイズやオンライン学習での使用には適していない。
BNP(Batch Normalization Preconditioning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-02T18:17:26Z) - Manipulating Identical Filter Redundancy for Efficient Pruning on Deep
and Complicated CNN [126.88224745942456]
そこで我々は,Centripetal SGD (C-SGD) を提案する。
C-SGDは、既存のメソッドと比較して冗長性がより組織化されているため、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-07-30T06:18:19Z) - "BNN - BN = ?": Training Binary Neural Networks without Batch
Normalization [92.23297927690149]
バッチ正規化(BN)は、最先端のバイナリニューラルネットワーク(BNN)に不可欠な重要なファシリテータである
BNNのトレーニングに彼らのフレームワークを拡張し、BNNのトレーニングや推論体制からBNを除去できることを初めて実証します。
論文 参考訳(メタデータ) (2021-04-16T16:46:57Z) - MimicNorm: Weight Mean and Last BN Layer Mimic the Dynamic of Batch
Normalization [60.36100335878855]
ネットワークトレーニングにおける収束と効率を改善するために,MimicNormという新しい正規化手法を提案する。
我々は、神経核(NTK)理論を利用して、我々の重み付けが活性化を弱め、BN層のようなカオス状態にネットワークを移行することを証明する。
MimicNormは、ResNetsやShuffleNetのような軽量ネットワークなど、さまざまなネットワーク構造に対して同様の精度を実現し、約20%のメモリ消費を削減している。
論文 参考訳(メタデータ) (2020-10-19T07:42:41Z) - PowerNorm: Rethinking Batch Normalization in Transformers [96.14956636022957]
自然言語処理(NLP)におけるニューラルネットワーク(NN)モデルの正規化法は層正規化(LN)である
LN は BN (naive/vanilla) の使用が NLP タスクの大幅な性能低下をもたらすという経験的観察により好まれる。
本稿では,この問題を解決する新しい正規化手法である電力正規化(PN)を提案する。
論文 参考訳(メタデータ) (2020-03-17T17:50:26Z) - Towards Stabilizing Batch Statistics in Backward Propagation of Batch
Normalization [126.6252371899064]
移動平均バッチ正規化(MABN)は,新しい正規化法である。
小バッチの場合,MABNはバニラBNの性能を完全に回復できることを示す。
実験では、ImageNetやCOCOを含む複数のコンピュータビジョンタスクにおけるMABNの有効性を実証した。
論文 参考訳(メタデータ) (2020-01-19T14:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。