論文の概要: Batch Group Normalization
- arxiv url: http://arxiv.org/abs/2012.02782v2
- Date: Wed, 9 Dec 2020 01:26:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 00:23:04.021169
- Title: Batch Group Normalization
- Title(参考訳): バッチ群正規化
- Authors: Xiao-Yun Zhou, Jiacheng Sun, Nanyang Ye, Xu Lan, Qijun Luo, Bo-Lin
Lai, Pedro Esperanca, Guang-Zhong Yang, Zhenguo Li
- Abstract要約: バッチ正規化(BN)は中規模および大規模なバッチサイズでよく機能する。
BNは、ノイズ/畳み込み統計計算により、小さな/非常に大きなバッチサイズで飽和する。
BGN は小・極大バッチサイズでの BN の雑音/畳み込み統計計算を解くために提案される。
- 参考スコア(独自算出の注目度): 45.03388237812212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Convolutional Neural Networks (DCNNs) are hard and time-consuming to
train. Normalization is one of the effective solutions. Among previous
normalization methods, Batch Normalization (BN) performs well at medium and
large batch sizes and is with good generalizability to multiple vision tasks,
while its performance degrades significantly at small batch sizes. In this
paper, we find that BN saturates at extreme large batch sizes, i.e., 128 images
per worker, i.e., GPU, as well and propose that the degradation/saturation of
BN at small/extreme large batch sizes is caused by noisy/confused statistic
calculation. Hence without adding new trainable parameters, using
multiple-layer or multi-iteration information, or introducing extra
computation, Batch Group Normalization (BGN) is proposed to solve the
noisy/confused statistic calculation of BN at small/extreme large batch sizes
with introducing the channel, height and width dimension to compensate. The
group technique in Group Normalization (GN) is used and a hyper-parameter G is
used to control the number of feature instances used for statistic calculation,
hence to offer neither noisy nor confused statistic for different batch sizes.
We empirically demonstrate that BGN consistently outperforms BN, Instance
Normalization (IN), Layer Normalization (LN), GN, and Positional Normalization
(PN), across a wide spectrum of vision tasks, including image classification,
Neural Architecture Search (NAS), adversarial learning, Few Shot Learning (FSL)
and Unsupervised Domain Adaptation (UDA), indicating its good performance,
robust stability to batch size and wide generalizability. For example, for
training ResNet-50 on ImageNet with a batch size of 2, BN achieves Top1
accuracy of 66.512% while BGN achieves 76.096% with notable improvement.
- Abstract(参考訳): 深層畳み込みニューラルネットワーク(DCNN)は、トレーニングに難しく、時間を要する。
正規化は有効な解の1つである。
従来の正規化手法では、バッチ正規化(bn)は中規模および大規模バッチサイズで良好に動作し、複数のビジョンタスクの汎用性も高いが、小さなバッチサイズでは性能が著しく低下する。
本稿では、BNがワーカ当たり128の画像、すなわちGPUで非常に大きなバッチサイズで飽和していることと、BNの小型/極大バッチサイズでの劣化/飽和がノイズ/畳み込み統計計算によって引き起こされることを提案する。
したがって、新しいトレーニング可能なパラメータを追加せずに、複数層または多層情報を使用したり、余分な計算を導入したりすることなく、Batch Group Normalization (BGN) が提案され、チャネル、高さ、幅を補うことで、小/極大バッチサイズでのBNのノイズ/畳み込み統計計算を解くことができる。
グループ正規化(GN)におけるグループテクニックを使用し、統計計算に使用される特徴量の制御にハイパーパラメータGを用いるため、異なるバッチサイズに対してノイズや混乱した統計量を提供しない。
我々は,BGNがBN,インスタンス正規化(IN),レイヤ正規化(LN),GN,位置正規化(PN),画像分類,ニューラルアーキテクチャサーチ(NAS),対角学習,FSL(Few Shot Learning),非教師なしドメイン適応(Unsupervised Domain Adaptation,UDA)など,幅広い視覚タスクにおいて一貫して優れており,その優れた性能,バッチサイズに対する安定性,広範な一般化性を示す。
例えば、ImageNet上のResNet-50をバッチサイズ2でトレーニングする場合、BNは66.512%、BGNは76.096%の精度で改善した。
関連論文リスト
- Exploring the Efficacy of Group-Normalization in Deep Learning Models for Alzheimer's Disease Classification [2.6447365674762273]
群正規化はバッチ正規化の代替となる。
GNはバッチ正規化と比較して非常に低い10.6%の誤差率を達成する。
論文 参考訳(メタデータ) (2024-04-01T06:10:11Z) - Batch Layer Normalization, A new normalization layer for CNNs and RNN [0.0]
本研究では, Batch Layer Normalization (BLN) と呼ばれる新しい正規化層を導入する。
バッチとレイヤの正規化の組み合わせとして、BLNはミニバッチの逆サイズに基づいて、最小バッチと特徴正規化を適切に重み付けする。
実験結果は,畳み込みニューラルネットワークと反復ニューラルネットワークの両方におけるBLNの適用ポテンシャルと,バッチ正規化および層正規化よりも高速な収束性を示す。
論文 参考訳(メタデータ) (2022-09-19T10:12:51Z) - BN-invariant sharpness regularizes the training model to better
generalization [72.97766238317081]
BN下等価ネットワークに対して一貫した値を与えるシャープネス測定法BN-Sharpnessを提案する。
我々はBNシャープネスを用いてトレーニングを正規化し、アルゴリズムを設計し、新しい正規化対象を最小化する。
論文 参考訳(メタデータ) (2021-01-08T10:23:24Z) - MimicNorm: Weight Mean and Last BN Layer Mimic the Dynamic of Batch
Normalization [60.36100335878855]
ネットワークトレーニングにおける収束と効率を改善するために,MimicNormという新しい正規化手法を提案する。
我々は、神経核(NTK)理論を利用して、我々の重み付けが活性化を弱め、BN層のようなカオス状態にネットワークを移行することを証明する。
MimicNormは、ResNetsやShuffleNetのような軽量ネットワークなど、さまざまなネットワーク構造に対して同様の精度を実現し、約20%のメモリ消費を削減している。
論文 参考訳(メタデータ) (2020-10-19T07:42:41Z) - Double Forward Propagation for Memorized Batch Normalization [68.34268180871416]
バッチ正規化(BN)は、ディープニューラルネットワーク(DNN)の設計における標準コンポーネントである。
より正確でロバストな統計値を得るために,複数の最近のバッチを考慮に入れた記憶型バッチ正規化(MBN)を提案する。
関連する手法と比較して、提案したMBNはトレーニングと推論の両方において一貫した振る舞いを示す。
論文 参考訳(メタデータ) (2020-10-10T08:48:41Z) - Extended Batch Normalization [3.377000738091241]
バッチ正規化(BN)は、現代のディープネットワークをトレーニングするための標準技術となっている。
本稿では,拡張バッチ正規化(EBN)と呼ばれる,単純だが効果的な手法を提案する。
実験により,バッチ正規化の拡張は,バッチサイズが小さい場合のバッチ正規化の問題を軽減するとともに,バッチサイズが大きい場合のバッチ正規化に対するクローズな性能を実現する。
論文 参考訳(メタデータ) (2020-03-12T01:53:15Z) - Cross-Iteration Batch Normalization [67.83430009388678]
本稿では,CBN(Cross-It Batch Normalization)を提案する。
CBNは、提案した補償手法を使わずに、元のバッチ正規化と過去の繰り返しの統計の直接計算より優れていた。
論文 参考訳(メタデータ) (2020-02-13T18:52:57Z) - Towards Stabilizing Batch Statistics in Backward Propagation of Batch
Normalization [126.6252371899064]
移動平均バッチ正規化(MABN)は,新しい正規化法である。
小バッチの場合,MABNはバニラBNの性能を完全に回復できることを示す。
実験では、ImageNetやCOCOを含む複数のコンピュータビジョンタスクにおけるMABNの有効性を実証した。
論文 参考訳(メタデータ) (2020-01-19T14:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。