論文の概要: Gated Removal of Normalization in Transformers Enables Stable Training and Efficient Inference
- arxiv url: http://arxiv.org/abs/2602.10408v1
- Date: Wed, 11 Feb 2026 01:40:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.365443
- Title: Gated Removal of Normalization in Transformers Enables Stable Training and Efficient Inference
- Title(参考訳): 安定トレーニングと効率的な推論を可能にする変圧器の正規化のゲーテッド除去
- Authors: Andrei Kanavalau, Carmen Amo Alonso, Sanjay Lall,
- Abstract要約: RMSNorm/LayerNormをドロップインで置き換えたTaperNormを紹介します。
1つのグローバルゲートは、ゲートウォームアップ中に$g=1$で保持され、EMAを介してスケーリングブランチをキャリブレーションし、コサインデケイを$g=0$にする。
マイクロベンチマークでは、折りたたみ内部のスケーリングは、ラスト・トーケン・ロジット・モードで最大1.22倍のスループットを得る。
- 参考スコア(独自算出の注目度): 2.1665689529884697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Normalization is widely viewed as essential for stabilizing Transformer training. We revisit this assumption for pre-norm Transformers and ask to what extent sample-dependent normalization is needed inside Transformer blocks. We introduce TaperNorm, a drop-in replacement for RMSNorm/LayerNorm that behaves exactly like the standard normalizer early in training and then smoothly tapers to a learned sample-independent linear/affine map. A single global gate is held at $g{=}1$ during gate warmup, used to calibrate the scaling branch via EMAs, and then cosine-decayed to $g{=}0$, at which point per-token statistics vanish and the resulting fixed scalings can be folded into adjacent linear projections. Our theoretical and empirical results isolate scale anchoring as the key role played by output normalization: as a (near) $0$-homogeneous map it removes radial gradients at the output, whereas without such an anchor cross-entropy encourages unbounded logit growth (``logit chasing''). We further show that a simple fixed-target auxiliary loss on the pre-logit residual-stream scale provides an explicit alternative anchor and can aid removal of the final normalization layer. Empirically, TaperNorm matches normalized baselines under identical setups while eliminating per-token statistics and enabling these layers to be folded into adjacent linear projections at inference. On an efficiency microbenchmark, folding internal scalings yields up to $1.22\times$ higher throughput in last-token logits mode. These results take a step towards norm-free Transformers while identifying the special role output normalization plays.
- Abstract(参考訳): 正規化はトランスフォーマートレーニングの安定化に不可欠であると考えられている。
プリノーム変圧器のこの仮定を再検討し、トランスフォーマーブロック内でサンプル依存正規化がどの程度必要か尋ねる。
本稿では,RMSNorm/LayerNormをドロップインで置き換えたTaperNormについて紹介する。
ゲートウォームアップ中に1つのグローバルゲートが$g{=}1$に保持され、EMAを介してスケーリングブランチをキャリブレーションし、コサインデケイドを$g{=}0$にすると、その点当たりの統計は消え、結果として固定されたスケーリングは隣接する線形射影に折り畳むことができる。
我々の理論的および実証的な結果は、出力正規化によって生じる重要な役割としてスケールアンカーを分離する: (近く)$0$-同次写像として、出力の半径勾配を除去する一方、アンカークロスエントロピーがなければ、アンバウンドなロジット成長が促進される(`logit chasing'')。
さらに, 既成残差ストリームスケールにおける単純な固定ターゲット補助損失は, 明確な代替アンカーとなり, 最終正規化層を除去するのに役立つことを示す。
経験的に、TaperNormは同じセットアップの下で正規化されたベースラインと一致し、トークンごとの統計を排除し、推論時にこれらのレイヤを隣接する線形射影に折り畳むことができる。
マイクロベンチマークでは、折りたたみ内部のスケーリングは、ラストツーケンロジットモードで最大1.22\times$高スループットとなる。
これらの結果は、特殊なロール出力正規化プレイを特定しながら、ノルムフリーなトランスフォーマーに向けて一歩前進する。
関連論文リスト
- Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - The Implicit Bias of Batch Normalization in Linear Models and Two-layer
Linear Convolutional Neural Networks [117.93273337740442]
勾配勾配勾配は、exp(-Omega(log2 t))$収束率でトレーニングデータ上の一様マージン分類器に収束することを示す。
また、バッチ正規化はパッチワイドの均一なマージンに対して暗黙の偏りを持つことを示す。
論文 参考訳(メタデータ) (2023-06-20T16:58:00Z) - Cost Aggregation with 4D Convolutional Swin Transformer for Few-Shot
Segmentation [58.4650849317274]
Volumetric Aggregation with Transformers (VAT)は、数ショットセグメンテーションのためのコスト集約ネットワークである。
VATは、コスト集約が中心的な役割を果たすセマンティック対応のための最先端のパフォーマンスも達成する。
論文 参考訳(メタデータ) (2022-07-22T04:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。