論文の概要: Beyond BatchNorm: Towards a General Understanding of Normalization in
Deep Learning
- arxiv url: http://arxiv.org/abs/2106.05956v1
- Date: Thu, 10 Jun 2021 17:51:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:30:51.686297
- Title: Beyond BatchNorm: Towards a General Understanding of Normalization in
Deep Learning
- Title(参考訳): バッチノルムを超えて:深層学習における正規化の一般的な理解に向けて
- Authors: Ekdeep Singh Lubana, Robert P. Dick, Hidenori Tanaka
- Abstract要約: 我々は、ランダムディープニューラルネットワーク(DNN)におけるBatchNormの既知の特性を、最近提案された9つの正規化層に拡張する。
BatchNormと同様、アクティベーションベースの正規化レイヤはResNetsの爆発的なアクティベーションを回避することができる。
GroupNormを使用すると、アクティベーションのランクが少なくとも$Omega(sqrtfractextwidthtextGroup Size)$であることを保証する。
- 参考スコア(独自算出の注目度): 6.356594388020641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by BatchNorm, there has been an explosion of normalization layers in
deep learning. Recent works have identified a multitude of beneficial
properties in BatchNorm to explain its success. However, given the pursuit of
alternative normalization techniques, these properties need to be generalized
so that any given layer's success/failure can be accurately predicted. In this
work, we take a first step towards this goal by extending known properties of
BatchNorm in randomly initialized deep neural networks (DNNs) to nine recently
proposed normalization layers. Our primary findings follow: (i) Similar to
BatchNorm, activations-based normalization layers can avoid exploding
activations in ResNets; (ii) Use of GroupNorm ensures rank of activations is at
least $\Omega(\sqrt{\frac{\text{width}}{\text{Group Size}}})$, thus explaining
why LayerNorm witnesses slow optimization speed; (iii) Small group sizes result
in large gradient norm in earlier layers, hence justifying training instability
issues in Instance Normalization and illustrating a speed-stability tradeoff in
GroupNorm. Overall, our analysis reveals several general mechanisms that
explain the success of normalization techniques in deep learning, providing us
with a compass to systematically explore the vast design space of DNN
normalization layers.
- Abstract(参考訳): batchnormに触発されて、ディープラーニングでは正規化層が爆発的に増えている。
最近の研究は、その成功を説明するために、BatchNormの多くの有益な特性を特定している。
しかし、代替正規化手法の追求を考えると、これらの特性は任意の層の成功/失敗を正確に予測できるように一般化する必要がある。
本研究では、ランダム初期化ディープニューラルネットワーク(DNN)におけるBatchNormの既知の特性を、最近提案された9つの正規化層に拡張することで、この目標に向けて第一歩を踏み出す。
Our primary findings follow: (i) Similar to BatchNorm, activations-based normalization layers can avoid exploding activations in ResNets; (ii) Use of GroupNorm ensures rank of activations is at least $\Omega(\sqrt{\frac{\text{width}}{\text{Group Size}}})$, thus explaining why LayerNorm witnesses slow optimization speed; (iii) Small group sizes result in large gradient norm in earlier layers, hence justifying training instability issues in Instance Normalization and illustrating a speed-stability tradeoff in GroupNorm.
全体として、ディープラーニングにおける正規化技術の成功を説明するいくつかの一般的なメカニズムを明らかにし、DNN正規化層の広大な設計空間を体系的に探索するためのコンパスを提供する。
関連論文リスト
- Unsupervised Adaptive Normalization [0.07499722271664146]
Unsupervised Adaptive Normalization (UAN)は、クラスタリングとディープニューラルネットワーク学習をシームレスに統合する革新的なアルゴリズムである。
UANは、対象タスクに適応することで古典的手法よりも優れており、分類やドメイン適応に有効である。
論文 参考訳(メタデータ) (2024-09-07T08:14:11Z) - Towards Training Without Depth Limits: Batch Normalization Without
Gradient Explosion [83.90492831583997]
バッチ正規化ネットワークは,信号伝搬特性を最適に保ちつつ,爆発的な勾配を回避することができることを示す。
線形アクティベーションとバッチ正規化を備えた多層パーセプトロン(MLP)を用いて,有界深度を実証する。
また、ある非線形活性化に対して同じ特性を経験的に達成する活性化整形法を設計する。
論文 参考訳(メタデータ) (2023-10-03T12:35:02Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Backward Gradient Normalization in Deep Neural Networks [68.8204255655161]
ニューラルネットワークトレーニングにおける勾配正規化のための新しい手法を提案する。
勾配は、ネットワークアーキテクチャ内の特定の点で導入された正規化レイヤを使用して、後方通過中に再スケールされる。
非常に深いニューラルネットワークを用いたテストの結果、新しい手法が勾配ノルムを効果的に制御できることが示されている。
論文 参考訳(メタデータ) (2021-06-17T13:24:43Z) - Correct Normalization Matters: Understanding the Effect of Normalization
On Deep Neural Network Models For Click-Through Rate Prediction [3.201333208812837]
本研究では,LayerNormをベースとした新しい効果的な正規化手法を提案する。
正規化の分散が主な役割を担い、本研究に説明を与える。
論文 参考訳(メタデータ) (2020-06-23T04:35:22Z) - Optimization Theory for ReLU Neural Networks Trained with Normalization
Layers [82.61117235807606]
ディープニューラルネットワークの成功は、部分的には正規化レイヤの使用によるものだ。
我々の分析は、正規化の導入がランドスケープをどのように変化させ、より高速なアクティベーションを実現するかを示している。
論文 参考訳(メタデータ) (2020-06-11T23:55:54Z) - Evolving Normalization-Activation Layers [100.82879448303805]
我々は、うまく機能しない候補層を迅速にフィルタリングする効率的な拒絶プロトコルを開発した。
EvoNormsは、新しい正規化活性化層であり、新しい構造を持ち、時には驚くべき構造を持つ。
我々の実験は、EvoNormsがResNets、MobileNets、EfficientNetsなどの画像分類モデルでうまく機能していることを示している。
論文 参考訳(メタデータ) (2020-04-06T19:52:48Z) - Improving the Backpropagation Algorithm with Consequentialism Weight
Updates over Mini-Batches [0.40611352512781856]
適応フィルタのスタックとして多層ニューラルネットワークを考えることが可能であることを示す。
我々は,BPで発生した行動の悪影響を予測し,その発生前にも予測し,よりよいアルゴリズムを導入する。
我々の実験は、ディープニューラルネットワークのトレーニングにおけるアルゴリズムの有用性を示す。
論文 参考訳(メタデータ) (2020-03-11T08:45:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。