論文の概要: Impact of Layer Norm on Memorization and Generalization in Transformers
- arxiv url: http://arxiv.org/abs/2511.10566v1
- Date: Fri, 14 Nov 2025 01:58:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.933182
- Title: Impact of Layer Norm on Memorization and Generalization in Transformers
- Title(参考訳): 変圧器の記憶と一般化に及ぼす層ノルムの影響
- Authors: Rishi Singhal, Jung-Eun Kim,
- Abstract要約: 本研究では,LayerNorm 変圧器の記憶と学習に及ぼすLayerNorm の影響について検討する。
我々は、LayerNormがPre-LayerNorm変換器における安定学習の重要な要素であるのに対して、Post-LayerNorm変換器ではメモリ化に影響を及ぼすことを確認した。
分析の結果,Pre-LayerNormモデルにおけるLayerNormパラメータの除去は記憶の悪化と学習の不安定化を招き,Post-LayerNormモデルでは本当のラベルを復元することで記憶の緩和を効果的に行うことがわかった。
- 参考スコア(独自算出の注目度): 9.069887212265087
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Layer Normalization (LayerNorm) is one of the fundamental components in transformers that stabilizes training and improves optimization. In recent times, Pre-LayerNorm transformers have become the preferred choice over Post-LayerNorm transformers due to their stable gradient flow. However, the impact of LayerNorm on learning and memorization across these architectures remains unclear. In this work, we investigate how LayerNorm influences memorization and learning for Pre- and Post-LayerNorm transformers. We identify that LayerNorm serves as a key factor for stable learning in Pre-LayerNorm transformers, while in Post-LayerNorm transformers, it impacts memorization. Our analysis reveals that eliminating LayerNorm parameters in Pre-LayerNorm models exacerbates memorization and destabilizes learning, while in Post-LayerNorm models, it effectively mitigates memorization by restoring genuine labels. We further precisely identify that early layers LayerNorm are the most critical over middle/later layers and their influence varies across Pre and Post LayerNorm models. We have validated it through 13 models across 6 Vision and Language datasets. These insights shed new light on the role of LayerNorm in shaping memorization and learning in transformers.
- Abstract(参考訳): レイヤ正規化(LayerNorm)は、トレーニングを安定させ、最適化を改善するトランスフォーマーの基本コンポーネントの1つである。
近年、プレレイアノーム変圧器は、安定な勾配流のため、ポストレイアノーム変圧器よりも好ましい選択肢となっている。
しかし、LayerNormがこれらのアーキテクチャの学習と記憶に与える影響は、まだ不明である。
本研究では,LayerNorm変換器の記憶と学習に及ぼすLayerNormの影響について検討する。
我々は、LayerNormがPre-LayerNorm変換器における安定学習の重要な要素であるのに対して、Post-LayerNorm変換器ではメモリ化に影響を及ぼすことを確認した。
分析の結果,Pre-LayerNormモデルにおけるLayerNormパラメータの除去は記憶の悪化と学習の不安定化を招き,Post-LayerNormモデルでは本当のラベルを復元することで記憶の緩和を効果的に行うことがわかった。
さらに我々は、初期レイヤのLayerNormが中後期のレイヤでもっとも重要であり、その影響はPreモデルとPost LayerNormモデルによって異なります。
6つのVisionとLanguageデータセットにわたる13のモデルを通じて検証しました。
これらの洞察は、トランスフォーマーの記憶と学習を形作る上でのLayerNormの役割に新たな光を当てた。
関連論文リスト
- SpanNorm: Reconciling Training Stability and Performance in Deep Transformers [55.100133502295996]
両パラダイムの強度を統合することでジレンマを解消する新しい手法であるSpanNormを提案する。
我々は、SpanNormと原則付きスケーリング戦略を組み合わせることで、ネットワーク全体にわたって有界信号のばらつきを維持できることを理論的に示す。
経験的に、SpanNormは、密集および混成実験(Mixture-of-Experts、MoE)のシナリオにおいて、標準正規化スキームを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-30T05:21:57Z) - Exploiting Layer Normalization Fine-tuning in Visual Transformer Foundation Models for Classification [30.16664767564679]
微調整後のLayerNormパラメータの変化は、ソースとターゲットドメイン間の遷移を示していることを示す。
本研究は,移動学習におけるLayerNormの過小評価力学を解明し,LayerNormの微調整のための実践的戦略を提供する。
論文 参考訳(メタデータ) (2025-08-11T03:18:47Z) - The Curse of Depth in Large Language Models [28.37870372690079]
大きな言語モデルでは、約半数のレイヤが予想よりも効果が低い。
層ノルムスケーリング(LNS)は、層正規化の出力の分散を、その深さの平方根によって逆向きにスケールする。
LNSは、LLM事前学習性能の向上において、従来の正規化およびスケーリング技術よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-02-09T07:03:36Z) - ReLU's Revival: On the Entropic Overload in Normalization-Free Large Language Models [3.7802450241986945]
LayerNormは、トレーニングの安定化とスムーズな最適化を保証するため、現代の大規模言語モデル(LLM)において重要なコンポーネントである。
本研究は、正規化自由デコーダのみのLLMにおける望ましいアクティベーション関数について検討する。
ReLUは、LayerNormフリーモデルでGELUを著しく上回り、bf 8.2%のパープレキシティ改善をもたらした。
論文 参考訳(メタデータ) (2024-10-12T20:26:01Z) - Transformer Layers as Painters [16.43731831488477]
事前学習したトランスの下位層と最終層は中間層と異なるが,中間層は驚くほど均一であることを示す。
また、いくつかの問題のクラスは、レイヤのスキップ、レイヤのトレーニング方法と異なる順序での実行、レイヤの並列実行に対して堅牢性が必要であることも示しています。
我々の観察では、凍結した事前学習モデルでさえ、レイヤをスキップしたり、並列にレイヤを走らせることで、遅延の正確さを優雅に交換できる可能性が示唆されている。
論文 参考訳(メタデータ) (2024-07-12T14:31:05Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - Exploring the Impact of Layer Normalization for Zero-shot Neural Machine
Translation [34.597300388169536]
本稿ではゼロショット翻訳(ZST)における層正規化(LayerNorm)の影響について検討する。
ZSTの最近の取り組みはTransformerアーキテクチャをバックボーンとして利用することが多く、LayerNormはデフォルトのレイヤ(PreNorm)の入力に設定されている。
論文 参考訳(メタデータ) (2023-05-16T09:37:08Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z) - On Layer Normalization in the Transformer Architecture [112.40350994368741]
まず,学習速度のウォームアップが重要である理由を理論的に検討し,レイヤー正規化の位置が重要であることを示す。
ウォームアップステージのないPre-LNトランスフォーマーはベースラインと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-12T00:33:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。