論文の概要: Transformers Don't Need LayerNorm at Inference Time: Scaling LayerNorm Removal to GPT-2 XL and the Implications for Mechanistic Interpretability
- arxiv url: http://arxiv.org/abs/2507.02559v1
- Date: Thu, 03 Jul 2025 12:09:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.190738
- Title: Transformers Don't Need LayerNorm at Inference Time: Scaling LayerNorm Removal to GPT-2 XL and the Implications for Mechanistic Interpretability
- Title(参考訳): トランスフォーマーは推論時にLayerNormを必要としない:LayerNorm除去をGPT-2 XLにスケーリングするとその機械的解釈可能性
- Authors: Luca Baroni, Galvin Khara, Joachim Schaeffer, Marat Subkhankulov, Stefan Heimersheim,
- Abstract要約: 層ワイド正規化(Layer-wise normalization、LN)は、トランスフォーマーベースの大規模言語モデルにおいて不可欠なコンポーネントである。
LN層は、追加の非線形性を導入し、個々のモデル成分の相互接続性を高めることで、機械論的解釈性を阻害する。
すべてのGPT-2モデルから全てのLN層を除去できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Layer-wise normalization (LN) is an essential component of virtually all transformer-based large language models. While its effects on training stability are well documented, its role at inference time is poorly understood. Additionally, LN layers hinder mechanistic interpretability by introducing additional nonlinearities and increasing the interconnectedness of individual model components. Here, we show that all LN layers can be removed from every GPT-2 model with only a small increase in validation loss (e.g. +0.03 cross-entropy loss for GPT-2 XL). Thus, LN cannot play a substantial role in language modeling. We find that the amount of fine-tuning data needed for LN removal grows sublinearly with model parameters, suggesting scaling to larger models is feasible. We release a suite of LN-free GPT-2 models on Hugging Face. Furthermore, we test interpretability techniques on LN-free models. Direct logit attribution now gives the exact direct effect of individual components, while the accuracy of attribution patching does not significantly improve. We also confirm that GPT-2's "confidence neurons" are inactive in the LN-free models. Our work clarifies the role of LN layers in language modeling, showing that GPT-2-class models can function without LN layers. We hope that our LN-free analogs of the GPT-2 family of models will enable more precise interpretability research and improve our understanding of language models.
- Abstract(参考訳): 階層ワイド正規化 (Layer-wise normalization, LN) は、ほとんど全てのトランスフォーマーベースの大規模言語モデルにおいて必須の要素である。
トレーニング安定性に対する影響は十分に文書化されているが、推論時間における役割はよく理解されていない。
さらに、LN層は、追加の非線形性を導入し、個々のモデル成分の相互接続性を高めることで、機械論的解釈性を阻害する。
ここでは,すべてのLN層をGPT-2モデルから除去することができ,検証損失は少ない(GPT-2 XLのクロスエントロピー損失は g +0.03 である)。
したがって、LNは言語モデリングにおいて重要な役割を果たすことはできない。
LN除去に必要な微調整データの量は、モデルパラメータとサブライン的に増加し、より大きなモデルへのスケーリングが実現可能であることを示唆する。
We release a suite of LN-free GPT-2 models on Hugging Face。
さらに,LNフリーモデル上での解釈可能性の検証を行った。
直接ロジット属性は個々のコンポーネントの正確な直接効果を与えるが、属性パッチの精度は著しく改善されない。
また,GPT-2の「自信ニューロン」はLNフリーモデルでは不活性であることが確認された。
本研究は,言語モデリングにおけるLN層の役割を明らかにし,GPT-2クラスモデルがLN層なしで機能可能であることを示す。
GPT-2モデルのLNフリーアナログにより、より正確な解釈可能性の研究が可能になり、言語モデルの理解が向上することを期待します。
関連論文リスト
- You can remove GPT2's LayerNorm by fine-tuning [0.0]
GPT型トランスモデルにおけるLayerNorm(LN)層は、長年にわたり機械的解釈可能性の障害となっている。
LNは、大規模な言語モデルのトレーニングを安定させるために必要な重要なコンポーネントである。
トレーニングデータの分数(500Mトークン)を微調整することにより,事前学習したGPT2小モデルからLN層を除去できることを示す。
論文 参考訳(メタデータ) (2024-09-06T16:17:06Z) - On the Nonlinearity of Layer Normalization [5.0464797863553414]
本稿では,LN-Netと呼ばれる線形およびLN変換を階層的に構成したネットワークの表現能力について検討する。
各層に3つのニューロンしか持たないLN-Netと$O(m)$ LN層が正しく分類できることを示す。
論文 参考訳(メタデータ) (2024-06-03T12:11:34Z) - When Attention Collapses: How Degenerate Layers in LLMs Enable Smaller, Stronger Models [61.363259848264725]
Inherituneは、より小さく、より効率的な言語モデルを構築するための、シンプルで効果的なトレーニングレシピである。
Inherituneのトレーニングしたモデルは、レイヤーが大幅に少ないにもかかわらず、より大きなモデルにマッチしたり、性能を上回ります。
論文 参考訳(メタデータ) (2024-04-12T17:53:34Z) - Locality Sensitive Sparse Encoding for Learning World Models Online [29.124825481348285]
Follow-The-Leader世界モデルはモデルに基づく強化学習に望ましい。
FTLモデルは、FTLを達成するために、すべての相互作用ステップで蓄積されたデータを再学習する必要がある。
我々の世界モデルは、リプレイで訓練されたディープワールドモデルの性能に匹敵するか、適合するかのどちらかで、1パスの軌跡データを使ってオンラインで学習した。
論文 参考訳(メタデータ) (2024-01-23T19:00:02Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Towards Robust k-Nearest-Neighbor Machine Translation [72.9252395037097]
近年,k-Nearest-Neighbor Machine Translation (kNN-MT)がNMTの重要な研究方向となっている。
その主なアイデアは、NMTモデルを更新することなく翻訳を変更するために、追加のデータストアから有用なキーと値のペアを取得することである。
取り出したノイズペアはモデル性能を劇的に低下させる。
ノイズの影響を軽減するために,頑健なトレーニングを施した信頼性向上kNN-MTモデルを提案する。
論文 参考訳(メタデータ) (2022-10-17T07:43:39Z) - A Kernel-Based View of Language Model Fine-Tuning [94.75146965041131]
ニューラル・タンジェント・カーネル(NTK)が事前学習したLMの微調整を記述しているかどうかを検討する。
本稿では,ダウンストリームタスクを暗黙の単語予測問題として定式化することで,微調整中にカーネルベースのダイナミクスをしばしば引き起こすことを示す。
論文 参考訳(メタデータ) (2022-10-11T17:34:32Z) - Symbolic Learning to Optimize: Towards Interpretability and Scalability [113.23813868412954]
近年のL2O(Learning to Optimize)研究は,複雑なタスクに対する最適化手順の自動化と高速化に期待できる道のりを示唆している。
既存のL2Oモデルは、ニューラルネットワークによる最適化ルールをパラメータ化し、メタトレーニングを通じてそれらの数値ルールを学ぶ。
本稿では,L2Oの総合的な記号表現と解析の枠組みを確立する。
そこで本稿では,大規模問題にメタトレーニングを施す軽量なL2Oモデルを提案する。
論文 参考訳(メタデータ) (2022-03-13T06:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。