論文の概要: Impact of Layer Norm on Memorization and Generalization in Transformers
- arxiv url: http://arxiv.org/abs/2511.10566v1
- Date: Fri, 14 Nov 2025 01:58:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.933182
- Title: Impact of Layer Norm on Memorization and Generalization in Transformers
- Title(参考訳): 変圧器の記憶と一般化に及ぼす層ノルムの影響
- Authors: Rishi Singhal, Jung-Eun Kim,
- Abstract要約: 本研究では,LayerNorm 変圧器の記憶と学習に及ぼすLayerNorm の影響について検討する。
我々は、LayerNormがPre-LayerNorm変換器における安定学習の重要な要素であるのに対して、Post-LayerNorm変換器ではメモリ化に影響を及ぼすことを確認した。
分析の結果,Pre-LayerNormモデルにおけるLayerNormパラメータの除去は記憶の悪化と学習の不安定化を招き,Post-LayerNormモデルでは本当のラベルを復元することで記憶の緩和を効果的に行うことがわかった。
- 参考スコア(独自算出の注目度): 9.069887212265087
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Layer Normalization (LayerNorm) is one of the fundamental components in transformers that stabilizes training and improves optimization. In recent times, Pre-LayerNorm transformers have become the preferred choice over Post-LayerNorm transformers due to their stable gradient flow. However, the impact of LayerNorm on learning and memorization across these architectures remains unclear. In this work, we investigate how LayerNorm influences memorization and learning for Pre- and Post-LayerNorm transformers. We identify that LayerNorm serves as a key factor for stable learning in Pre-LayerNorm transformers, while in Post-LayerNorm transformers, it impacts memorization. Our analysis reveals that eliminating LayerNorm parameters in Pre-LayerNorm models exacerbates memorization and destabilizes learning, while in Post-LayerNorm models, it effectively mitigates memorization by restoring genuine labels. We further precisely identify that early layers LayerNorm are the most critical over middle/later layers and their influence varies across Pre and Post LayerNorm models. We have validated it through 13 models across 6 Vision and Language datasets. These insights shed new light on the role of LayerNorm in shaping memorization and learning in transformers.
- Abstract(参考訳): レイヤ正規化(LayerNorm)は、トレーニングを安定させ、最適化を改善するトランスフォーマーの基本コンポーネントの1つである。
近年、プレレイアノーム変圧器は、安定な勾配流のため、ポストレイアノーム変圧器よりも好ましい選択肢となっている。
しかし、LayerNormがこれらのアーキテクチャの学習と記憶に与える影響は、まだ不明である。
本研究では,LayerNorm変換器の記憶と学習に及ぼすLayerNormの影響について検討する。
我々は、LayerNormがPre-LayerNorm変換器における安定学習の重要な要素であるのに対して、Post-LayerNorm変換器ではメモリ化に影響を及ぼすことを確認した。
分析の結果,Pre-LayerNormモデルにおけるLayerNormパラメータの除去は記憶の悪化と学習の不安定化を招き,Post-LayerNormモデルでは本当のラベルを復元することで記憶の緩和を効果的に行うことがわかった。
さらに我々は、初期レイヤのLayerNormが中後期のレイヤでもっとも重要であり、その影響はPreモデルとPost LayerNormモデルによって異なります。
6つのVisionとLanguageデータセットにわたる13のモデルを通じて検証しました。
これらの洞察は、トランスフォーマーの記憶と学習を形作る上でのLayerNormの役割に新たな光を当てた。
関連論文リスト
- Exploiting Layer Normalization Fine-tuning in Visual Transformer Foundation Models for Classification [30.16664767564679]
微調整後のLayerNormパラメータの変化は、ソースとターゲットドメイン間の遷移を示していることを示す。
本研究は,移動学習におけるLayerNormの過小評価力学を解明し,LayerNormの微調整のための実践的戦略を提供する。
論文 参考訳(メタデータ) (2025-08-11T03:18:47Z) - Transformer Layers as Painters [16.43731831488477]
事前学習したトランスの下位層と最終層は中間層と異なるが,中間層は驚くほど均一であることを示す。
また、いくつかの問題のクラスは、レイヤのスキップ、レイヤのトレーニング方法と異なる順序での実行、レイヤの並列実行に対して堅牢性が必要であることも示しています。
我々の観察では、凍結した事前学習モデルでさえ、レイヤをスキップしたり、並列にレイヤを走らせることで、遅延の正確さを優雅に交換できる可能性が示唆されている。
論文 参考訳(メタデータ) (2024-07-12T14:31:05Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z) - On Layer Normalization in the Transformer Architecture [112.40350994368741]
まず,学習速度のウォームアップが重要である理由を理論的に検討し,レイヤー正規化の位置が重要であることを示す。
ウォームアップステージのないPre-LNトランスフォーマーはベースラインと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-12T00:33:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。