論文の概要: You can remove GPT2's LayerNorm by fine-tuning
- arxiv url: http://arxiv.org/abs/2409.13710v2
- Date: Sun, 17 Nov 2024 22:32:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:30:54.992763
- Title: You can remove GPT2's LayerNorm by fine-tuning
- Title(参考訳): GPT2のLayerNormは微調整で削除できる
- Authors: Stefan Heimersheim,
- Abstract要約: GPT型トランスモデルにおけるLayerNorm(LN)層は、長年にわたり機械的解釈可能性の障害となっている。
LNは、大規模な言語モデルのトレーニングを安定させるために必要な重要なコンポーネントである。
トレーニングデータの分数(500Mトークン)を微調整することにより,事前学習したGPT2小モデルからLN層を除去できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The LayerNorm (LN) layer in GPT-style transformer models has long been a hindrance to mechanistic interpretability. LN is a crucial component required to stabilize the training of large language models, and LN or the similar RMSNorm have been used in practically all large language models based on the transformer architecture. The non-linear nature of the LN layers is a hindrance for mechanistic interpretability as it hinders interpretation of the residual stream, and makes it difficult to decompose the model into circuits. Some researchers have gone so far as to name "reasons interpretability researchers hate layer norm." In this paper we show that it is possible to remove the LN layers from a pre-trained GPT2-small model by fine-tuning on a fraction (500M tokens) of the training data. We demonstrate that this LN-free model achieves similar performance to the original model on the OpenWebText and ThePile datasets (-0.05 cross-entropy loss), and the Hellaswag benchmark (-0.5% accuracy). We provide our implementation at https://github.com/ApolloResearch/gpt2_noLN, and fine-tuned GPT2-small models at https://huggingface.co/apollo-research/gpt2_noLN. Our work not only provides a simplified model for mechanistic interpretability research, but also provides evidence that the LN layers, at inference time, do not play a crucial role in transformer models.
- Abstract(参考訳): GPT型トランスモデルにおけるLayerNorm(LN)層は、長年にわたり機械的解釈可能性の障害となっている。
LNは大きな言語モデルのトレーニングを安定させるために必要な重要なコンポーネントであり、LNやRMSNormはトランスフォーマーアーキテクチャに基づいたほとんど全ての大きな言語モデルで使われてきた。
LN層の非線形性は、残留ストリームの解釈を妨げ、モデルを回路に分解することが困難になるため、機械論的解釈の妨げとなる。
一部の研究者は、「レアソンズ・解釈可能性研究者はレイヤー規範を嫌う」とまで名付けている。本論文では、トレーニングデータの分数(500万トークン)を微調整することで、事前訓練されたGPT2-小モデルからLN層を除去できることを示す。
このLNフリーモデルは,OpenWebTextデータセットやThePileデータセット(-0.05のクロスエントロピー損失)やHellaswagベンチマーク(-0.5%の精度)において,オリジナルのモデルと同じような性能を実現することを実証した。
我々は、https://github.com/ApolloResearch/gpt2_noLNで実装し、https://huggingface.co/apollo-research/gpt2_noLNで微調整されたGPT2小モデルを提供します。
我々の研究は、機械論的解釈可能性研究のための単純化されたモデルを提供するだけでなく、LN層が推論時にトランスフォーマーモデルにおいて重要な役割を果たさないという証拠も提供する。
関連論文リスト
- Chip-Tuning: Classify Before Language Models Say [25.546473157624945]
チップチューニングは、分類問題に対するシンプルで効果的な構造化プルーニングフレームワークである。
チップチューニングは,従来の最先端のベースラインを精度とプルーニング比の両方で大幅に上回っていることを示す。
また、チップチューニングはマルチモーダルモデルに適用でき、モデル微調整と組み合わせることで、優れた互換性が証明できる。
論文 参考訳(メタデータ) (2024-10-09T04:35:22Z) - Understanding Linear Probing then Fine-tuning Language Models from NTK Perspective [32.01426831450348]
2段階ファインチューニング (FT) 法, 線形探傷 (LP) 法, 次いでファインチューニング (LP-FT) 法は線形探傷法とFT単独法より優れている。
ニューラルネットワークカーネル(NTK)理論に基づく分類タスクにおけるLP-FTのトレーニングダイナミクスを解析する。
本研究は,細調整言語モデルにおけるLP-FTの有効性を示す。
論文 参考訳(メタデータ) (2024-05-27T01:31:40Z) - HuRef: HUman-REadable Fingerprint for Large Language Models [44.9820558213721]
HuRefは、大きな言語モデルのための人間可読指紋である。
トレーニングやモデルパラメータを公開することなく、ベースモデルを独自に識別する。
論文 参考訳(メタデータ) (2023-12-08T05:01:47Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。
フェデレートラーニングにおいて最も顕著に用いられている。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Model-Generated Pretraining Signals Improves Zero-Shot Generalization of
Text-to-Text Transformers [98.30298332661323]
本稿では,T5などのテキスト変換器のゼロショット一般化におけるモデル生成信号の有効性について検討する。
我々は新しいモデルMETRO-T0を開発し、ELECTRA-Style事前学習戦略を用いて事前訓練を行い、次にNLPタスクの混合を即時微調整する。
その結果,METRO-T0の有効性は,パラメータのよりバランスの取れた寄与と,それらの能力の有効利用に起因していることが判明した。
論文 参考訳(メタデータ) (2023-05-21T21:06:23Z) - Towards Robust k-Nearest-Neighbor Machine Translation [72.9252395037097]
近年,k-Nearest-Neighbor Machine Translation (kNN-MT)がNMTの重要な研究方向となっている。
その主なアイデアは、NMTモデルを更新することなく翻訳を変更するために、追加のデータストアから有用なキーと値のペアを取得することである。
取り出したノイズペアはモデル性能を劇的に低下させる。
ノイズの影響を軽減するために,頑健なトレーニングを施した信頼性向上kNN-MTモデルを提案する。
論文 参考訳(メタデータ) (2022-10-17T07:43:39Z) - DeepNet: Scaling Transformers to 1,000 Layers [106.33669415337135]
トランスフォーマーの残差接続を修正するための新しい正規化関数(DeepNorm)を導入する。
詳細な理論解析により、モデル更新は安定な方法でバウンドできることが示されている。
トランスフォーマーを1,000層まで拡張することに成功したが、これは従来のディープトランスフォーマーよりも1桁も深い。
論文 参考訳(メタデータ) (2022-03-01T15:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。