論文の概要: Understanding the Failure of Batch Normalization for Transformers in NLP
- arxiv url: http://arxiv.org/abs/2210.05153v1
- Date: Tue, 11 Oct 2022 05:18:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:11:24.171285
- Title: Understanding the Failure of Batch Normalization for Transformers in NLP
- Title(参考訳): NLPにおける変圧器のバッチ正規化失敗の理解
- Authors: Jiaxi Wang, Ji Wu, Lei Huang
- Abstract要約: バッチ正規化(BN)は、ディープニューラルネットワークのトレーニングを加速する技術である。
BNは、レイヤ正規化(LN)が支配する自然言語処理(NLP)において、その位置を守らない
正規化BN(RBN)はBNの性能を一貫して改善し、20設定中17設定でLNと同等または同等である。
- 参考スコア(独自算出の注目度): 16.476194435004732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Batch Normalization (BN) is a core and prevalent technique in accelerating
the training of deep neural networks and improving the generalization on
Computer Vision (CV) tasks. However, it fails to defend its position in Natural
Language Processing (NLP), which is dominated by Layer Normalization (LN). In
this paper, we are trying to answer why BN usually performs worse than LN in
NLP tasks with Transformer models. We find that the inconsistency between
training and inference of BN is the leading cause that results in the failure
of BN in NLP. We define Training Inference Discrepancy (TID) to quantitatively
measure this inconsistency and reveal that TID can indicate BN's performance,
supported by extensive experiments, including image classification, neural
machine translation, language modeling, sequence labeling, and text
classification tasks. We find that BN can obtain much better test performance
than LN when TID keeps small through training. To suppress the explosion of
TID, we propose Regularized BN (RBN) that adds a simple regularization term to
narrow the gap between batch statistics and population statistics of BN. RBN
improves the performance of BN consistently and outperforms or is on par with
LN on 17 out of 20 settings, involving ten datasets and two common variants of
Transformer\footnote{Our code is available at
\url{https://github.com/wjxts/RegularizedBN}}.
- Abstract(参考訳): バッチ正規化(BN)は、ディープニューラルネットワークのトレーニングを加速し、コンピュータビジョン(CV)タスクの一般化を改善するための、中核的で一般的なテクニックである。
しかし、レイヤー正規化(Layer Normalization, LN)が支配する自然言語処理(NLP)では、その地位を守れない。
本稿では, Transformer モデルを用いた NLP タスクにおいて, BN が LN よりも悪い性能を示す理由について述べる。
BN のトレーニングと推論の矛盾が NLP における BN の失敗に繋がる主要な原因であることがわかった。
この不整合を定量的に測定するためにtid(training inference discrepancy)を定義し、画像分類、ニューラルネットワーク翻訳、言語モデリング、シーケンスラベリング、テキスト分類タスクなどの広範な実験によって、tidがbnのパフォーマンスを示すことができることを明らかにした。
TIDがトレーニングによって小さく保たれた場合、BNはLNよりもはるかに優れたテスト性能が得られることがわかった。
TIDの爆発を抑制するために,バッチ統計とBNの人口統計とのギャップを狭めるため,単純な正規化項を追加する正規化BN(RBN)を提案する。
RBNは10のデータセットと2つの共通のTransformer\footnote{Ourコードは \url{https://github.com/wjxts/RegularizedBN}}で利用可能である。
関連論文リスト
- Overcoming Recency Bias of Normalization Statistics in Continual
Learning: Balance and Adaptation [67.77048565738728]
継続的な学習には、一連のタスクを学習し、彼らの知識を適切にバランスさせることが含まれる。
本稿では,タスク・ワイド・コントリビューションに適応するためのベイズ的戦略を適切に取り入れた BN の適応バランス (AdaB$2$N) を提案する。
提案手法は,幅広いベンチマークにおいて,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-10-13T04:50:40Z) - Diagnosing Batch Normalization in Class Incremental Learning [39.70552266952221]
バッチ正規化(BN)は中間特徴写像を標準化し、訓練安定性と収束性を改善するために広く検証されている。
分類バイアスを排除しつつ,より優れた特徴抽出器を訓練することにより,この問題に対処するBN Tricksを提案する。
BN Tricksが採用されているすべてのベースラインに大幅なパフォーマンス向上をもたらすことを示す。
論文 参考訳(メタデータ) (2022-02-16T12:38:43Z) - Rebalancing Batch Normalization for Exemplar-based Class-Incremental
Learning [23.621259845287824]
バッチ正規化(BN)は、様々なコンピュータビジョンタスクにおけるニューラルネットに対して広く研究されている。
我々はBNの新しい更新パッチを開発し、特にCIL(Exemplar-based class-incremental Learning)に特化している。
論文 参考訳(メタデータ) (2022-01-29T11:03:03Z) - Batch Normalization Preconditioning for Neural Network Training [7.709342743709842]
バッチ正規化(BN)は、ディープラーニングにおいて一般的でユビキタスな手法である。
BNは、非常に小さなミニバッチサイズやオンライン学習での使用には適していない。
BNP(Batch Normalization Preconditioning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-02T18:17:26Z) - "BNN - BN = ?": Training Binary Neural Networks without Batch
Normalization [92.23297927690149]
バッチ正規化(BN)は、最先端のバイナリニューラルネットワーク(BNN)に不可欠な重要なファシリテータである
BNNのトレーニングに彼らのフレームワークを拡張し、BNNのトレーニングや推論体制からBNを除去できることを初めて実証します。
論文 参考訳(メタデータ) (2021-04-16T16:46:57Z) - MimicNorm: Weight Mean and Last BN Layer Mimic the Dynamic of Batch
Normalization [60.36100335878855]
ネットワークトレーニングにおける収束と効率を改善するために,MimicNormという新しい正規化手法を提案する。
我々は、神経核(NTK)理論を利用して、我々の重み付けが活性化を弱め、BN層のようなカオス状態にネットワークを移行することを証明する。
MimicNormは、ResNetsやShuffleNetのような軽量ネットワークなど、さまざまなネットワーク構造に対して同様の精度を実現し、約20%のメモリ消費を削減している。
論文 参考訳(メタデータ) (2020-10-19T07:42:41Z) - Double Forward Propagation for Memorized Batch Normalization [68.34268180871416]
バッチ正規化(BN)は、ディープニューラルネットワーク(DNN)の設計における標準コンポーネントである。
より正確でロバストな統計値を得るために,複数の最近のバッチを考慮に入れた記憶型バッチ正規化(MBN)を提案する。
関連する手法と比較して、提案したMBNはトレーニングと推論の両方において一貫した振る舞いを示す。
論文 参考訳(メタデータ) (2020-10-10T08:48:41Z) - PowerNorm: Rethinking Batch Normalization in Transformers [96.14956636022957]
自然言語処理(NLP)におけるニューラルネットワーク(NN)モデルの正規化法は層正規化(LN)である
LN は BN (naive/vanilla) の使用が NLP タスクの大幅な性能低下をもたらすという経験的観察により好まれる。
本稿では,この問題を解決する新しい正規化手法である電力正規化(PN)を提案する。
論文 参考訳(メタデータ) (2020-03-17T17:50:26Z) - Towards Stabilizing Batch Statistics in Backward Propagation of Batch
Normalization [126.6252371899064]
移動平均バッチ正規化(MABN)は,新しい正規化法である。
小バッチの場合,MABNはバニラBNの性能を完全に回復できることを示す。
実験では、ImageNetやCOCOを含む複数のコンピュータビジョンタスクにおけるMABNの有効性を実証した。
論文 参考訳(メタデータ) (2020-01-19T14:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。