論文の概要: An Empirical Analysis of the Shift and Scale Parameters in BatchNorm
- arxiv url: http://arxiv.org/abs/2303.12818v1
- Date: Wed, 22 Mar 2023 12:41:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 16:55:55.671742
- Title: An Empirical Analysis of the Shift and Scale Parameters in BatchNorm
- Title(参考訳): BatchNormにおけるシフトパラメータとスケールパラメータの実証解析
- Authors: Yashna Peerthum and Mark Stamp
- Abstract要約: Batch Normalization(BatchNorm)は、ディープニューラルネットワークのトレーニングを改善するテクニックである。
本稿では,正規化段階におけるBatchNormの成功に対する相対的貢献について検討する。
- 参考スコア(独自算出の注目度): 3.198144010381572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Batch Normalization (BatchNorm) is a technique that improves the training of
deep neural networks, especially Convolutional Neural Networks (CNN). It has
been empirically demonstrated that BatchNorm increases performance, stability,
and accuracy, although the reasons for such improvements are unclear. BatchNorm
includes a normalization step as well as trainable shift and scale parameters.
In this paper, we empirically examine the relative contribution to the success
of BatchNorm of the normalization step, as compared to the re-parameterization
via shifting and scaling. To conduct our experiments, we implement two new
optimizers in PyTorch, namely, a version of BatchNorm that we refer to as
AffineLayer, which includes the re-parameterization step without normalization,
and a version with just the normalization step, that we call BatchNorm-minus.
We compare the performance of our AffineLayer and BatchNorm-minus
implementations to standard BatchNorm, and we also compare these to the case
where no batch normalization is used. We experiment with four ResNet
architectures (ResNet18, ResNet34, ResNet50, and ResNet101) over a standard
image dataset and multiple batch sizes. Among other findings, we provide
empirical evidence that the success of BatchNorm may derive primarily from
improved weight initialization.
- Abstract(参考訳): Batch Normalization (BatchNorm)は、ディープニューラルネットワーク、特に畳み込みニューラルネットワーク(CNN)のトレーニングを改善する技術である。
BatchNormはパフォーマンス、安定性、正確性を向上させることが実証されているが、そのような改善の理由は不明である。
BatchNormには正規化ステップとトレーニング可能なシフトとスケールパラメータが含まれている。
本稿では,シフトとスケーリングによる再パラメータ化と比較して,正規化ステップのバッチノルムの成功に対する相対的貢献を実証的に検討する。
実験を行うために、我々はPyTorchで2つの新しいオプティマイザを実装し、すなわち、正規化せずに再パラメータ化ステップを含むAffineLayerと呼ばれるBatchNormのバージョンと、正規化ステップのみを持つバージョンをBatchNorm-minusと呼ぶ。
我々は、AffineLayerとBatchNorm-minusの実装の性能を標準のBatchNormと比較し、バッチ正規化を使用しない場合と比較する。
ResNet18、ResNet34、ResNet50、ResNet101の4つのアーキテクチャを、標準的な画像データセットと複数のバッチサイズで実験した。
BatchNormの成功は、主に体重初期化の改善から生じる可能性があるという実証的な証拠を提供する。
関連論文リスト
- Patch-aware Batch Normalization for Improving Cross-domain Robustness [55.06956781674986]
クロスドメインタスクは、トレーニングセットとテストセットが異なるディストリビューションに従うと、モデルのパフォーマンスが低下する課題を示す。
パッチ対応バッチ正規化(PBN)と呼ばれる新しい手法を提案する。
画像の局所的なパッチの違いを利用して、提案したPBNはモデルパラメータの堅牢性を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-04-06T03:25:42Z) - Sample-Then-Optimize Batch Neural Thompson Sampling [50.800944138278474]
我々はトンプソンサンプリング(TS)ポリシーに基づくブラックボックス最適化のための2つのアルゴリズムを提案する。
入力クエリを選択するには、NNをトレーニングし、トレーニングされたNNを最大化してクエリを選択するだけです。
我々のアルゴリズムは、大きなパラメータ行列を逆転する必要性を助長するが、TSポリシーの妥当性は保たれている。
論文 参考訳(メタデータ) (2022-10-13T09:01:58Z) - Kernel Normalized Convolutional Networks [15.997774467236352]
しかし、BatchNormは小さなバッチサイズではパフォーマンスが悪く、差分プライバシーには適用できない。
我々はカーネルノームとカーネル正規化畳み込み層を提案し、カーネル正規化畳み込みネットワーク(KNConvNets)に組み込む。
KNConvNetsは、画像分類とセマンティックセグメンテーションにおいて、BatchNormのそれよりも高い、あるいは競合的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-20T11:18:05Z) - Is Batch Norm unique? An empirical investigation and prescription to
emulate the best properties of common normalizers without batch dependence [33.07255026021875]
バッチノルムおよび他の一般的な正規化器の統計的性質について検討する。
PreLayerNormとRegNormという2つの単純な正規化器を提案します。
論文 参考訳(メタデータ) (2020-10-21T00:41:38Z) - MimicNorm: Weight Mean and Last BN Layer Mimic the Dynamic of Batch
Normalization [60.36100335878855]
ネットワークトレーニングにおける収束と効率を改善するために,MimicNormという新しい正規化手法を提案する。
我々は、神経核(NTK)理論を利用して、我々の重み付けが活性化を弱め、BN層のようなカオス状態にネットワークを移行することを証明する。
MimicNormは、ResNetsやShuffleNetのような軽量ネットワークなど、さまざまなネットワーク構造に対して同様の精度を実現し、約20%のメモリ消費を削減している。
論文 参考訳(メタデータ) (2020-10-19T07:42:41Z) - A New Look at Ghost Normalization [12.331754048486554]
いくつかのデータセットでは、ゴースト正規化(GhostNorm)がBatchNormで改善されていることが示されている。
i) 単にBatchNormの拡張ではなく、GhostNorm特有の正規化のソースを発見し、(ii) 3種類のGhostNorm実装について説明する。
論文 参考訳(メタデータ) (2020-07-16T18:23:52Z) - Evolving Normalization-Activation Layers [100.82879448303805]
我々は、うまく機能しない候補層を迅速にフィルタリングする効率的な拒絶プロトコルを開発した。
EvoNormsは、新しい正規化活性化層であり、新しい構造を持ち、時には驚くべき構造を持つ。
我々の実験は、EvoNormsがResNets、MobileNets、EfficientNetsなどの画像分類モデルでうまく機能していることを示している。
論文 参考訳(メタデータ) (2020-04-06T19:52:48Z) - Separating the Effects of Batch Normalization on CNN Training Speed and
Stability Using Classical Adaptive Filter Theory [40.55789598448379]
バッチ正規化(BatchNorm)は、トレーニング速度と安定性を改善するために、畳み込みニューラルネットワーク(CNN)で一般的に使用される。
本稿では、従来の適応フィルタ領域の概念を用いて、BatchNormの動的および内部動作に関する洞察を提供する。
論文 参考訳(メタデータ) (2020-02-25T05:25:40Z) - Cross-Iteration Batch Normalization [67.83430009388678]
本稿では,CBN(Cross-It Batch Normalization)を提案する。
CBNは、提案した補償手法を使わずに、元のバッチ正規化と過去の繰り返しの統計の直接計算より優れていた。
論文 参考訳(メタデータ) (2020-02-13T18:52:57Z) - Towards Stabilizing Batch Statistics in Backward Propagation of Batch
Normalization [126.6252371899064]
移動平均バッチ正規化(MABN)は,新しい正規化法である。
小バッチの場合,MABNはバニラBNの性能を完全に回復できることを示す。
実験では、ImageNetやCOCOを含む複数のコンピュータビジョンタスクにおけるMABNの有効性を実証した。
論文 参考訳(メタデータ) (2020-01-19T14:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。