Fugu-MT 論文翻訳(概要): NormFormer: Improved Transformer Pretraining with Extra Normalization

論文の概要: NormFormer: Improved Transformer Pretraining with Extra Normalization

arxiv url: http://arxiv.org/abs/2110.09456v1
Date: Mon, 18 Oct 2021 16:47:45 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-19 14:06:33.644296
Title: NormFormer: Improved Transformer Pretraining with Extra Normalization
Title（参考訳）: normformer: 余分な正規化によるトランスプレトレーニングの改善
Authors: Sam Shleifer, Jason Weston, Myle Ott
Abstract要約: NormFormerアーキテクチャは、各レイヤに3つの正規化操作を追加する。余剰演算は無視可能な計算コストを発生させる。マスク付き言語モデリングでは、NormFormerは微調整されたGLUEのパフォーマンスを1.9%改善した。
参考スコア（独自算出の注目度）: 31.250781670447257
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: During pretraining, the Pre-LayerNorm transformer suffers from a gradient magnitude mismatch: gradients at early layers are much larger than at later layers. These issues can be alleviated by our proposed NormFormer architecture, which adds three normalization operations to each layer: a Layer Norm after self attention, head-wise scaling of self-attention outputs, and a Layer Norm after the first fully connected layer. The extra operations incur negligible compute cost (+0.4% parameter increase), but improve pretraining perplexity and downstream task performance for both causal and masked language models ranging from 125 Million to 2.7 Billion parameters. For example, adding NormFormer on top of our strongest 1.3B parameter baseline can reach equal perplexity 24% faster, or converge 0.27 perplexity better in the same compute budget. This model reaches GPT3-Large (1.3B) zero shot performance 60% faster. For masked language modeling, NormFormer improves fine-tuned GLUE performance by 1.9% on average. Code to train NormFormer models is available in fairseq https://github.com/pytorch/fairseq/tree/main/examples/normformer .
Abstract（参考訳）: プリトレーニング中、プレレイヤーノルムトランスフォーマーは勾配等級のミスマッチに苦しめられ、初期層の勾配は後段の層よりもはるかに大きい。提案するノルムフォーマーアーキテクチャでは,各レイヤに3つの正規化操作を付加する。自己注意後のレイヤノルム,自己注意アウトプットのヘッドワイズスケーリング,第1の完全接続層後のレイヤノルムである。余分な操作は計算コスト(+0.4%のパラメータ増加)を伴いますが、125万から270億のパラメータを持つ因果的言語モデルとマスク付き言語モデルの両方において、事前トレーニングのパープレキシティとダウンストリームタスクパフォーマンスを改善します。例えば、最強の1.3Bパラメーターベースラインの上にNormFormerを追加すると、同じ計算予算で同等のパープレキシティが24%速くなり、0.27パープレキシティがより良く収束する。このモデルはGPT3-Large (1.3B)ゼロショット性能を60%高速化した。マスク付き言語モデリングでは、normformerは平均で1.9%改善されている。 normformerモデルのトレーニングコードはfairseq https://github.com/pytorch/fairseq/tree/main/examples/normformerで利用可能である。

関連論文リスト

AdaGC: Improving Training Stability for Large Language Model Pretraining [18.163318397205533]
大きなLanguageText Models(LLM)は、スケーリング中に損失の急増に直面します。グローバルなクリッピングがこれを緩和する一方で、従来のアプローチは特定のバリエーションを緩和する。我々は,AdaGCがグローバルクリッピングよりも25%早く収束していることを示す。
論文参考訳（メタデータ） (2025-02-16T08:13:23Z)
Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文参考訳（メタデータ） (2025-02-11T13:10:34Z)
Methods of improving LLM training stability [3.3790712267402374]
学習速度が高いと、全ての線形層出力のL2ノルムはトレーニングステップごとに成長し、モデルが分岐する。この2つの手法により,QK層正規化のみに基づくアプローチと比較して,学習率を1.5倍に向上できることを示す。
論文参考訳（メタデータ） (2024-10-22T04:27:03Z)
Initialization of Large Language Models via Reparameterization to Mitigate Loss Spikes [18.12700358872208]
パラメータのノルムの非均一性は損失スパイクの原因の1つである。ニューラルネットワークのトレーニングでは、階層全体にわたって勾配のスケールを一定に保つ必要がある。
論文参考訳（メタデータ） (2024-10-07T14:09:58Z)
Improved techniques for deterministic l2 robustness [63.34032156196848]
畳み込みニューラルネットワーク(CNN)を$l_2$ノルムの下で厳密な1-Lipschitz制約で訓練することは、対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。我々は,最後の線形層を1重層に置き換えることで,1-Lipschitz CNNのロバスト性を証明する手法を提案する。我々は,CIFAR-10およびCIFAR-100における標準および証明可能な堅牢な精度の最先端化を図る。
論文参考訳（メタデータ） (2022-11-15T19:10:12Z)
Transformers meet Stochastic Block Models: Attention with Data-Adaptive Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文参考訳（メタデータ） (2022-10-27T15:30:52Z)
AdaNorm: Adaptive Gradient Norm Correction based Optimizer for CNNs [23.523389372182613]
勾配降下(SGD)は一般に畳み込みニューラルネットワーク(CNN)の訓練に使用される既存のSGDは過去の反復の勾配基準を活用せず、収束と性能の低下につながる。本稿では,AdaNormをベースとした新しいSGDを提案する。
論文参考訳（メタデータ） (2022-10-12T16:17:25Z)
DeepNet: Scaling Transformers to 1,000 Layers [106.33669415337135]
トランスフォーマーの残差接続を修正するための新しい正規化関数(DeepNorm)を導入する。詳細な理論解析により、モデル更新は安定な方法でバウンドできることが示されている。トランスフォーマーを1,000層まで拡張することに成功したが、これは従来のディープトランスフォーマーよりも1桁も深い。
論文参考訳（メタデータ） (2022-03-01T15:36:38Z)
Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文参考訳（メタデータ） (2022-02-02T11:58:56Z)
Primer: Searching for Efficient Transformers for Language Modeling [79.2677566332444]
大型トランスフォーマーモデルのトレーニングと推論コストは急速に増加し、高価になっている。ここでは、より効率的な変種を探すことにより、トランスフォーマーのコストを削減することを目的とする。私たちは、オリジナルのTransformerよりもトレーニングコストの少ないPrimerというアーキテクチャを特定します。
論文参考訳（メタデータ） (2021-09-17T17:50:39Z)
DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文参考訳（メタデータ） (2020-06-05T19:54:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。