論文の概要: PowerNorm: Rethinking Batch Normalization in Transformers
- arxiv url: http://arxiv.org/abs/2003.07845v2
- Date: Sun, 28 Jun 2020 07:12:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 20:27:01.919654
- Title: PowerNorm: Rethinking Batch Normalization in Transformers
- Title(参考訳): PowerNorm: トランスフォーマーのバッチ正規化を再考
- Authors: Sheng Shen, Zhewei Yao, Amir Gholami, Michael W. Mahoney, Kurt Keutzer
- Abstract要約: 自然言語処理(NLP)におけるニューラルネットワーク(NN)モデルの正規化法は層正規化(LN)である
LN は BN (naive/vanilla) の使用が NLP タスクの大幅な性能低下をもたらすという経験的観察により好まれる。
本稿では,この問題を解決する新しい正規化手法である電力正規化(PN)を提案する。
- 参考スコア(独自算出の注目度): 96.14956636022957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The standard normalization method for neural network (NN) models used in
Natural Language Processing (NLP) is layer normalization (LN). This is
different than batch normalization (BN), which is widely-adopted in Computer
Vision. The preferred use of LN in NLP is principally due to the empirical
observation that a (naive/vanilla) use of BN leads to significant performance
degradation for NLP tasks; however, a thorough understanding of the underlying
reasons for this is not always evident. In this paper, we perform a systematic
study of NLP transformer models to understand why BN has a poor performance, as
compared to LN. We find that the statistics of NLP data across the batch
dimension exhibit large fluctuations throughout training. This results in
instability, if BN is naively implemented. To address this, we propose Power
Normalization (PN), a novel normalization scheme that resolves this issue by
(i) relaxing zero-mean normalization in BN, (ii) incorporating a running
quadratic mean instead of per batch statistics to stabilize fluctuations, and
(iii) using an approximate backpropagation for incorporating the running
statistics in the forward pass. We show theoretically, under mild assumptions,
that PN leads to a smaller Lipschitz constant for the loss, compared with BN.
Furthermore, we prove that the approximate backpropagation scheme leads to
bounded gradients. We extensively test PN for transformers on a range of NLP
tasks, and we show that it significantly outperforms both LN and BN. In
particular, PN outperforms LN by 0.4/0.6 BLEU on IWSLT14/WMT14 and 5.6/3.0 PPL
on PTB/WikiText-103. We make our code publicly available at
\url{https://github.com/sIncerass/powernorm}.
- Abstract(参考訳): 自然言語処理(NLP)で使用されるニューラルネットワーク(NN)モデルの標準正規化方法は、層正規化(LN)である。
これはコンピュータビジョンで広く採用されているバッチ正規化(bn)とは異なる。
NLP における LN の使用は、主に BN の使用が NLP タスクの大幅な性能低下をもたらすという経験的観察によるものであるが、その基礎となる理由を深く理解することは必ずしも明確ではない。
本稿では,BNがLNと比較して低性能である理由を理解するため,NLPトランスフォーマーモデルの系統的研究を行う。
バッチ次元にわたるNLPデータの統計は、トレーニングを通して大きな変動を示す。
これにより BN がネーティブな実装であれば不安定となる。
そこで我々は,この問題を解決する新しい正規化手法である電力正規化(PN)を提案する。
i) BN におけるゼロ平均正規化を緩和する
二 変動の安定化を図るために、バッチ統計に代えて、実行中の二次平均を組み込むこと
(iii)フォワードパスに走行統計を組み込むための近似バックプロパゲーションを用いる。
理論上、軽微な仮定の下では、PN は損失に対して BN よりも小さいリプシッツ定数をもたらすことを示す。
さらに,近似バックプロパゲーションスキームが境界勾配をもたらすことを証明した。
我々は,NLPタスクにおける変圧器のPNを広範囲にテストし,LNとBNの両方で有意に優れていたことを示す。
特にPNは、IWSLT14/WMT14では0.4/0.6BLEU、PTB/WikiText-103では5.6/3.0PPLより優れている。
コードは \url{https://github.com/ sincerass/powernorm} で公開しています。
関連論文リスト
- Overcoming Recency Bias of Normalization Statistics in Continual
Learning: Balance and Adaptation [67.77048565738728]
継続的な学習には、一連のタスクを学習し、彼らの知識を適切にバランスさせることが含まれる。
本稿では,タスク・ワイド・コントリビューションに適応するためのベイズ的戦略を適切に取り入れた BN の適応バランス (AdaB$2$N) を提案する。
提案手法は,幅広いベンチマークにおいて,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-10-13T04:50:40Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Understanding the Failure of Batch Normalization for Transformers in NLP [16.476194435004732]
バッチ正規化(BN)は、ディープニューラルネットワークのトレーニングを加速する技術である。
BNは、レイヤ正規化(LN)が支配する自然言語処理(NLP)において、その位置を守らない
正規化BN(RBN)はBNの性能を一貫して改善し、20設定中17設定でLNと同等または同等である。
論文 参考訳(メタデータ) (2022-10-11T05:18:47Z) - Unified Normalization for Accelerating and Stabilizing Transformers [35.07454490355906]
層正規化(LN)は各トークン内のアクティベーションを正規化し、ロバスト性を高める。
LNは推論におけるオンザフライ統計計算と除算および平方根演算を必要とする。
我々は、他の線形演算と融合して推論を高速化するUnified Normalization (UN)を提案する。
論文 参考訳(メタデータ) (2022-08-02T08:41:31Z) - Batch Normalization Preconditioning for Neural Network Training [7.709342743709842]
バッチ正規化(BN)は、ディープラーニングにおいて一般的でユビキタスな手法である。
BNは、非常に小さなミニバッチサイズやオンライン学習での使用には適していない。
BNP(Batch Normalization Preconditioning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-02T18:17:26Z) - MimicNorm: Weight Mean and Last BN Layer Mimic the Dynamic of Batch
Normalization [60.36100335878855]
ネットワークトレーニングにおける収束と効率を改善するために,MimicNormという新しい正規化手法を提案する。
我々は、神経核(NTK)理論を利用して、我々の重み付けが活性化を弱め、BN層のようなカオス状態にネットワークを移行することを証明する。
MimicNormは、ResNetsやShuffleNetのような軽量ネットワークなど、さまざまなネットワーク構造に対して同様の精度を実現し、約20%のメモリ消費を削減している。
論文 参考訳(メタデータ) (2020-10-19T07:42:41Z) - Double Forward Propagation for Memorized Batch Normalization [68.34268180871416]
バッチ正規化(BN)は、ディープニューラルネットワーク(DNN)の設計における標準コンポーネントである。
より正確でロバストな統計値を得るために,複数の最近のバッチを考慮に入れた記憶型バッチ正規化(MBN)を提案する。
関連する手法と比較して、提案したMBNはトレーニングと推論の両方において一貫した振る舞いを示す。
論文 参考訳(メタデータ) (2020-10-10T08:48:41Z) - Towards Stabilizing Batch Statistics in Backward Propagation of Batch
Normalization [126.6252371899064]
移動平均バッチ正規化(MABN)は,新しい正規化法である。
小バッチの場合,MABNはバニラBNの性能を完全に回復できることを示す。
実験では、ImageNetやCOCOを含む複数のコンピュータビジョンタスクにおけるMABNの有効性を実証した。
論文 参考訳(メタデータ) (2020-01-19T14:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。