論文の概要: NormFormer: Improved Transformer Pretraining with Extra Normalization
- arxiv url: http://arxiv.org/abs/2110.09456v1
- Date: Mon, 18 Oct 2021 16:47:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 14:06:33.644296
- Title: NormFormer: Improved Transformer Pretraining with Extra Normalization
- Title(参考訳): normformer: 余分な正規化によるトランスプレトレーニングの改善
- Authors: Sam Shleifer, Jason Weston, Myle Ott
- Abstract要約: NormFormerアーキテクチャは、各レイヤに3つの正規化操作を追加する。
余剰演算は無視可能な計算コストを発生させる。
マスク付き言語モデリングでは、NormFormerは微調整されたGLUEのパフォーマンスを1.9%改善した。
- 参考スコア(独自算出の注目度): 31.250781670447257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: During pretraining, the Pre-LayerNorm transformer suffers from a gradient
magnitude mismatch: gradients at early layers are much larger than at later
layers. These issues can be alleviated by our proposed NormFormer architecture,
which adds three normalization operations to each layer: a Layer Norm after
self attention, head-wise scaling of self-attention outputs, and a Layer Norm
after the first fully connected layer. The extra operations incur negligible
compute cost (+0.4% parameter increase), but improve pretraining perplexity and
downstream task performance for both causal and masked language models ranging
from 125 Million to 2.7 Billion parameters. For example, adding NormFormer on
top of our strongest 1.3B parameter baseline can reach equal perplexity 24%
faster, or converge 0.27 perplexity better in the same compute budget. This
model reaches GPT3-Large (1.3B) zero shot performance 60% faster. For masked
language modeling, NormFormer improves fine-tuned GLUE performance by 1.9% on
average. Code to train NormFormer models is available in fairseq
https://github.com/pytorch/fairseq/tree/main/examples/normformer .
- Abstract(参考訳): プリトレーニング中、プレレイヤーノルムトランスフォーマーは勾配等級のミスマッチに苦しめられ、初期層の勾配は後段の層よりもはるかに大きい。
提案するノルムフォーマーアーキテクチャでは,各レイヤに3つの正規化操作を付加する。自己注意後のレイヤノルム,自己注意アウトプットのヘッドワイズスケーリング,第1の完全接続層後のレイヤノルムである。
余分な操作は計算コスト(+0.4%のパラメータ増加)を伴いますが、125万から270億のパラメータを持つ因果的言語モデルとマスク付き言語モデルの両方において、事前トレーニングのパープレキシティとダウンストリームタスクパフォーマンスを改善します。
例えば、最強の1.3Bパラメーターベースラインの上にNormFormerを追加すると、同じ計算予算で同等のパープレキシティが24%速くなり、0.27パープレキシティがより良く収束する。
このモデルはGPT3-Large (1.3B)ゼロショット性能を60%高速化した。
マスク付き言語モデリングでは、normformerは平均で1.9%改善されている。
normformerモデルのトレーニングコードはfairseq https://github.com/pytorch/fairseq/tree/main/examples/normformerで利用可能である。
関連論文リスト
- Methods of improving LLM training stability [3.3790712267402374]
学習速度が高いと、全ての線形層出力のL2ノルムはトレーニングステップごとに成長し、モデルが分岐する。
この2つの手法により,QK層正規化のみに基づくアプローチと比較して,学習率を1.5倍に向上できることを示す。
論文 参考訳(メタデータ) (2024-10-22T04:27:03Z) - Initialization of Large Language Models via Reparameterization to Mitigate Loss Spikes [18.12700358872208]
パラメータのノルムの非均一性は損失スパイクの原因の1つである。
ニューラルネットワークのトレーニングでは、階層全体にわたって勾配のスケールを一定に保つ必要がある。
論文 参考訳(メタデータ) (2024-10-07T14:09:58Z) - Improved techniques for deterministic l2 robustness [63.34032156196848]
畳み込みニューラルネットワーク(CNN)を$l_2$ノルムの下で厳密な1-Lipschitz制約で訓練することは、対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。
我々は,最後の線形層を1重層に置き換えることで,1-Lipschitz CNNのロバスト性を証明する手法を提案する。
我々は,CIFAR-10およびCIFAR-100における標準および証明可能な堅牢な精度の最先端化を図る。
論文 参考訳(メタデータ) (2022-11-15T19:10:12Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - AdaNorm: Adaptive Gradient Norm Correction based Optimizer for CNNs [23.523389372182613]
勾配降下(SGD)は一般に畳み込みニューラルネットワーク(CNN)の訓練に使用される
既存のSGDは過去の反復の勾配基準を活用せず、収束と性能の低下につながる。
本稿では,AdaNormをベースとした新しいSGDを提案する。
論文 参考訳(メタデータ) (2022-10-12T16:17:25Z) - DeepNet: Scaling Transformers to 1,000 Layers [106.33669415337135]
トランスフォーマーの残差接続を修正するための新しい正規化関数(DeepNorm)を導入する。
詳細な理論解析により、モデル更新は安定な方法でバウンドできることが示されている。
トランスフォーマーを1,000層まで拡張することに成功したが、これは従来のディープトランスフォーマーよりも1桁も深い。
論文 参考訳(メタデータ) (2022-03-01T15:36:38Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z) - Primer: Searching for Efficient Transformers for Language Modeling [79.2677566332444]
大型トランスフォーマーモデルのトレーニングと推論コストは急速に増加し、高価になっている。
ここでは、より効率的な変種を探すことにより、トランスフォーマーのコストを削減することを目的とする。
私たちは、オリジナルのTransformerよりもトレーニングコストの少ないPrimerというアーキテクチャを特定します。
論文 参考訳(メタデータ) (2021-09-17T17:50:39Z) - DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。
これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文 参考訳(メタデータ) (2020-06-05T19:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。