論文の概要: MimicNorm: Weight Mean and Last BN Layer Mimic the Dynamic of Batch
Normalization
- arxiv url: http://arxiv.org/abs/2010.09278v3
- Date: Wed, 27 Sep 2023 11:38:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 03:56:27.407664
- Title: MimicNorm: Weight Mean and Last BN Layer Mimic the Dynamic of Batch
Normalization
- Title(参考訳): MimicNorm: バッチ正規化のダイナミックなBNレイヤの重みと最後のBNレイヤ
- Authors: Wen Fei, Wenrui Dai, Chenglin Li, Junni Zou, Hongkai Xiong
- Abstract要約: ネットワークトレーニングにおける収束と効率を改善するために,MimicNormという新しい正規化手法を提案する。
我々は、神経核(NTK)理論を利用して、我々の重み付けが活性化を弱め、BN層のようなカオス状態にネットワークを移行することを証明する。
MimicNormは、ResNetsやShuffleNetのような軽量ネットワークなど、さまざまなネットワーク構造に対して同様の精度を実現し、約20%のメモリ消費を削減している。
- 参考スコア(独自算出の注目度): 60.36100335878855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Substantial experiments have validated the success of Batch Normalization
(BN) Layer in benefiting convergence and generalization. However, BN requires
extra memory and float-point calculation. Moreover, BN would be inaccurate on
micro-batch, as it depends on batch statistics. In this paper, we address these
problems by simplifying BN regularization while keeping two fundamental impacts
of BN layers, i.e., data decorrelation and adaptive learning rate. We propose a
novel normalization method, named MimicNorm, to improve the convergence and
efficiency in network training. MimicNorm consists of only two light
operations, including modified weight mean operations (subtract mean values
from weight parameter tensor) and one BN layer before loss function (last BN
layer). We leverage the neural tangent kernel (NTK) theory to prove that our
weight mean operation whitens activations and transits network into the chaotic
regime like BN layer, and consequently, leads to an enhanced convergence. The
last BN layer provides autotuned learning rates and also improves accuracy.
Experimental results show that MimicNorm achieves similar accuracy for various
network structures, including ResNets and lightweight networks like ShuffleNet,
with a reduction of about 20% memory consumption. The code is publicly
available at https://github.com/Kid-key/MimicNorm.
- Abstract(参考訳): 物質実験は収束と一般化の恩恵を受けるためのバッチ正規化(BN)層の成功を検証する。
しかし、BNは余分なメモリと浮動小数点計算を必要とする。
さらにBNはバッチ統計に依存するため、マイクロバッチでは不正確である。
本稿では、BNの正規化を単純化し、BN層の基本的影響、すなわちデータデコリレーションと適応学習率を2つ保持する。
ネットワークトレーニングにおける収束と効率を改善するために,MimicNormという新しい正規化手法を提案する。
MimicNormは2つの光演算のみで構成され、修正された重み平均演算(重みパラメータテンソルから平均値を引き出す)と損失関数の前に1つのBN層(ラストBN層)を含む。
我々はニューラル・タンジェント・カーネル(ntk)理論を利用して、我々の重み平均演算が活性化を白化させ、bn層のようなカオス構造にネットワークを遷移させることを証明する。
最後のbn層は自動学習率を提供し、精度も向上している。
実験の結果、MimicNormはResNetsやShuffleNetのような軽量ネットワークなど、様々なネットワーク構造に対して同様の精度を実現し、約20%のメモリ消費を削減した。
コードはhttps://github.com/Kid-key/MimicNorm.comで公開されている。
関連論文リスト
- Unified Batch Normalization: Identifying and Alleviating the Feature
Condensation in Batch Normalization and a Unified Framework [55.22949690864962]
バッチ正規化(BN)は、現代のニューラルネットワーク設計において欠かせない技術となっている。
UBN(Unified Batch Normalization)と呼ばれる2段階統合フレームワークを提案する。
UBNは異なる視覚バックボーンと異なる視覚タスクのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-27T16:41:31Z) - An Adaptive Batch Normalization in Deep Learning [0.0]
バッチ正規化(BN)は、深層畳み込みニューラルネットワークのトレーニングを加速し、安定させる方法である。
本稿では、BNを必要とするデータとそれを必要としないデータを分離する、しきい値に基づく適応的なBNアプローチを提案する。
論文 参考訳(メタデータ) (2022-11-03T12:12:56Z) - Understanding the Failure of Batch Normalization for Transformers in NLP [16.476194435004732]
バッチ正規化(BN)は、ディープニューラルネットワークのトレーニングを加速する技術である。
BNは、レイヤ正規化(LN)が支配する自然言語処理(NLP)において、その位置を守らない
正規化BN(RBN)はBNの性能を一貫して改善し、20設定中17設定でLNと同等または同等である。
論文 参考訳(メタデータ) (2022-10-11T05:18:47Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Stochastic Whitening Batch Normalization [9.514475896906605]
バッチ正規化(BN)はディープニューラルネットワーク(DNN)をトレーニングするための一般的なテクニックである
最近提案された反復正規化法 (IterNorm) はニュートン法を用いて活性化を反復的に白くすることでこれらの特性を改善する。
SWBNは収束率と一般化を改善するが、計算オーバーヘッドはIterNormよりも小さいことを示す。
論文 参考訳(メタデータ) (2021-06-03T20:45:42Z) - BN-invariant sharpness regularizes the training model to better
generalization [72.97766238317081]
BN下等価ネットワークに対して一貫した値を与えるシャープネス測定法BN-Sharpnessを提案する。
我々はBNシャープネスを用いてトレーニングを正規化し、アルゴリズムを設計し、新しい正規化対象を最小化する。
論文 参考訳(メタデータ) (2021-01-08T10:23:24Z) - Double Forward Propagation for Memorized Batch Normalization [68.34268180871416]
バッチ正規化(BN)は、ディープニューラルネットワーク(DNN)の設計における標準コンポーネントである。
より正確でロバストな統計値を得るために,複数の最近のバッチを考慮に入れた記憶型バッチ正規化(MBN)を提案する。
関連する手法と比較して、提案したMBNはトレーニングと推論の両方において一貫した振る舞いを示す。
論文 参考訳(メタデータ) (2020-10-10T08:48:41Z) - Optimal Quantization for Batch Normalization in Neural Network
Deployments and Beyond [18.14282813812512]
バッチ正規化(BN)が量子ニューラルネットワーク(QNN)に挑戦
本稿では、2つの浮動小数点のアフィン変換を共有量子化スケールで固定点演算に変換することによりBNを定量化する新しい方法を提案する。
提案手法は,CIFARおよびImageNetデータセット上の層レベルでの実験により検証される。
論文 参考訳(メタデータ) (2020-08-30T09:33:29Z) - Towards Stabilizing Batch Statistics in Backward Propagation of Batch
Normalization [126.6252371899064]
移動平均バッチ正規化(MABN)は,新しい正規化法である。
小バッチの場合,MABNはバニラBNの性能を完全に回復できることを示す。
実験では、ImageNetやCOCOを含む複数のコンピュータビジョンタスクにおけるMABNの有効性を実証した。
論文 参考訳(メタデータ) (2020-01-19T14:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。