論文の概要: Pre-RMSNorm and Pre-CRMSNorm Transformers: Equivalent and Efficient
Pre-LN Transformers
- arxiv url: http://arxiv.org/abs/2305.14858v2
- Date: Thu, 26 Oct 2023 04:32:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 02:00:23.334512
- Title: Pre-RMSNorm and Pre-CRMSNorm Transformers: Equivalent and Efficient
Pre-LN Transformers
- Title(参考訳): Pre-RMSNorm および Pre-CRMSNorm 変換器: 等価かつ効率的な Pre-LN 変換器
- Authors: Zixuan Jiang, Jiaqi Gu, Hanqing Zhu, David Z. Pan
- Abstract要約: 本稿では,2つの主流アーキテクチャであるPre-LNとPre-RMSNormを統一する手法を提案する。
Pre-LN変換器のメインブランチにある本質的に冗長な平均情報を除去することで、LayerNormをRMSNormに還元し、高い効率を実現することができる。
- 参考スコア(独自算出の注目度): 15.411688626234572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have achieved great success in machine learning applications.
Normalization techniques, such as Layer Normalization (LayerNorm, LN) and Root
Mean Square Normalization (RMSNorm), play a critical role in accelerating and
stabilizing the training of Transformers. While LayerNorm recenters and
rescales input vectors, RMSNorm only rescales the vectors by their RMS value.
Despite being more computationally efficient, RMSNorm may compromise the
representation ability of Transformers. There is currently no consensus
regarding the preferred normalization technique, as some models employ
LayerNorm while others utilize RMSNorm, especially in recent large language
models. It is challenging to convert Transformers with one normalization to the
other type. While there is an ongoing disagreement between the two
normalization types, we propose a solution to unify two mainstream Transformer
architectures, Pre-LN and Pre-RMSNorm Transformers. By removing the inherent
redundant mean information in the main branch of Pre-LN Transformers, we can
reduce LayerNorm to RMSNorm, achieving higher efficiency. We further propose
the Compressed RMSNorm (CRMSNorm) and Pre-CRMSNorm Transformer based on a
lossless compression of the zero-mean vectors. We formally establish the
equivalence of Pre-LN, Pre-RMSNorm, and Pre-CRMSNorm Transformer variants in
both training and inference. It implies that Pre-LN Transformers can be
substituted with Pre-(C)RMSNorm counterparts at almost no cost, offering the
same arithmetic functionality along with free efficiency improvement.
Experiments demonstrate that we can reduce the training and inference time of
Pre-LN Transformers by 1% - 10%.
- Abstract(参考訳): トランスフォーマーは機械学習アプリケーションで大きな成功を収めた。
レイヤー正規化 (LayerNorm, LN) やルート平均角正規化 (RMSNorm) のような正規化技術はトランスフォーマーの訓練の加速と安定化に重要な役割を果たしている。
LayerNormは入力ベクトルを更新および再スケールするが、RMSNormはRMS値でのみベクトルを再スケールする。
より計算効率が良いにもかかわらず、RMSNormはトランスフォーマーの表現能力を損なう可能性がある。
現在、LayerNormを採用するモデルや、RMSNormを使用しているモデル、特に最近の大規模言語モデルでは、推奨の正規化技術について合意が得られていない。
1つの正規化でトランスフォーマーを他の型に変換するのは難しい。
2つの正規化型の間には相違点が続いているが、本研究では、Pre-LNとPre-RMSNormの2つの主流トランスフォーマーアーキテクチャを統合するソリューションを提案する。
Pre-LN変換器のメインブランチにある本質的に冗長な平均情報を除去することで、LayerNormをRMSNormに還元し、高い効率を実現することができる。
さらに、ゼロ平均ベクトルのロスレス圧縮に基づいて、圧縮RMSNorm(CRMSNorm)とプレCRMSNorm変換器を提案する。
我々は、トレーニングと推論の両方において、Pre-LN、Pre-RMSNorm、Pre-CRMSNorm Transformerの等価性を正式に確立する。
これは、Pre-LN変換器をPre-(C)RMSNormでほぼ無償で置き換えることができ、同じ算術的機能と自由効率の改善を提供することを意味する。
実験により、プレLN変換器のトレーニングと推論時間を1%から10%削減できることが示された。
関連論文リスト
- Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA [38.30350849992281]
再帰的(recursive)"言語モデルは、パフォーマンスの損失を最小限に抑えたレイヤ間でパラメータを共有する。
Recursive Transformerは、標準的な事前トレーニングされたトランスフォーマーから効率よく利用できるが、単一のユニークなレイヤブロックしか使用せず、ループ内で何度も繰り返される。
我々のモデルは、類似サイズのバニラ事前学習モデルと知識蒸留ベースラインの両方より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-28T02:15:45Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Symmetric Transformer-based Network for Unsupervised Image Registration [4.258536928793156]
本稿では,従来のトランスフォーマーのパラメータを低減する,畳み込みに基づく効率的なマルチヘッド自己アテンション(CEMSA)ブロックを提案する。
提案したCEMSAに基づいて,新しいSymmetric Transformer-based model(SymTrans)を提案する。
実験結果から,提案手法は画像登録における最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2022-04-28T15:45:09Z) - Are Transformers More Robust? Towards Exact Robustness Verification for
Transformers [3.2259574483835673]
本稿では,トランスフォーマーのロバスト性問題について検討する。
具体的には,Sparsemaxベースのトランスフォーマーに着目し,その最大ロバスト性をMIQCP(Mixed Quadratically Constrained Programming)問題に還元する。
次に、Sparsemaxベースのトランスフォーマーのロバスト性を従来のMLP(Multi-Layer-Perceptron)NNと比較するために、Land Departureを用いて実験を行った。
論文 参考訳(メタデータ) (2022-02-08T15:27:33Z) - Finetuning Pretrained Transformers into Variational Autoencoders [0.0]
テキスト変分オートエンコーダ(VAE)は後部崩壊で有名である。
トランスフォーマーはテキストVAEのコンポーネントとして限定的に採用されている。
そこで本研究では,シーケンス・ツー・シーケンス・トランスフォーマーをVAEに変換するための2段階の簡単なトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-08-05T08:27:26Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - On Layer Normalization in the Transformer Architecture [112.40350994368741]
まず,学習速度のウォームアップが重要である理由を理論的に検討し,レイヤー正規化の位置が重要であることを示す。
ウォームアップステージのないPre-LNトランスフォーマーはベースラインと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-12T00:33:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。