論文の概要: Explaining Grokking in Transformers through the Lens of Inductive Bias
- arxiv url: http://arxiv.org/abs/2602.06702v1
- Date: Fri, 06 Feb 2026 13:45:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.412918
- Title: Explaining Grokking in Transformers through the Lens of Inductive Bias
- Title(参考訳): インダクティブバイアスレンズによるトランスフォーマーのグロッキングの解説
- Authors: Jaisidh Singh, Diganta Misra, Antonio Orvieto,
- Abstract要約: インダクティブバイアスのレンズによる変圧器のグラクキングについて検討する。
まず、レイヤ正規化(LN)の位置のようなアーキテクチャ上の選択は、グルーキング速度を強く調節することを示す。
本研究は,従来提案されていた読み出しスケールなどの制御の異なる解釈を誘導し,最適化設定の違いがグルーキングをどう調節するかを考察する。
- 参考スコア(独自算出の注目度): 18.96337447499985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate grokking in transformers through the lens of inductive bias: dispositions arising from architecture or optimization that let the network prefer one solution over another. We first show that architectural choices such as the position of Layer Normalization (LN) strongly modulates grokking speed. This modulation is explained by isolating how LN on specific pathways shapes shortcut-learning and attention entropy. Subsequently, we study how different optimization settings modulate grokking, inducing distinct interpretations of previously proposed controls such as readout scale. Particularly, we find that using readout scale as a control for lazy training can be confounded by learning rate and weight decay in our setting. Accordingly, we show that features evolve continuously throughout training, suggesting grokking in transformers can be more nuanced than a lazy-to-rich transition of the learning regime. Finally, we show how generalization predictably emerges with feature compressibility in grokking, across different modulators of inductive bias. Our code is released at https://tinyurl.com/y52u3cad.
- Abstract(参考訳): 帰納バイアスのレンズによる変圧器のグルーキングについて検討する。アーキテクチャや最適化から生じる配置は、ネットワークが別の解を優先するものである。
まず、レイヤ正規化(LN)の位置のようなアーキテクチャ上の選択は、グルーキング速度を強く調節することを示す。
この調節は、特定の経路上のLNがショートカット学習とアテンションエントロピーをどう形成するかを分離することによって説明される。
その後、異なる最適化設定がグラッキングを調節し、読み出しスケールのような従来提案されていた制御の異なる解釈を誘導する方法について検討する。
特に,遅延学習の制御手段として,読み出し尺度を用いることで,学習率と重み劣化を両立させることが可能であることがわかった。
そこで本研究では, 学習体制の遅延からリッチへの移行よりも, 変圧器のグルーキングがより微妙に行うことが示唆された。
最後に、帰納バイアスの異なる変調器にまたがって、グルーキングにおける特徴圧縮性によって一般化が予測可能となることを示す。
私たちのコードはhttps://tinyurl.com/y52u3cad.comで公開されています。
関連論文リスト
- Softmax $\geq$ Linear: Transformers may learn to classify in-context by kernel gradient descent [17.629377639287775]
コンテクストから学習するために、トランスフォーマーが使用する学習アルゴリズムを理解することに注力する。
トランスフォーマーは、カーネル機能空間の関数ではあるものの、コンテキスト内で勾配降下を習うことができる。
これらの理論的な知見は,ソフトマックスに対する文脈適応性の向上を示唆している。
論文 参考訳(メタデータ) (2025-10-12T03:20:27Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - A Length-Extrapolatable Transformer [98.54835576985664]
長さ外挿、すなわち短いテキストのトレーニングに焦点をあて、長いシーケンスを評価します。
注目度を最大化するために,相対的な位置埋め込みを導入する。
言語モデルを用いてトランスフォーマーの変種を評価する。
論文 参考訳(メタデータ) (2022-12-20T18:56:20Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Learnable Gabor modulated complex-valued networks for orientation
robustness [4.024850952459758]
学習可能な Gabor Convolutional Networks (LGCNs) はパラメータ効率が良く、モデルの複雑さが増す。
複雑な値を持つ畳み込み重みの束縛性について,学習したガボルフィルタを用いて検討し,配向変換を実現する。
論文 参考訳(メタデータ) (2020-11-23T21:22:27Z) - Effects of Parameter Norm Growth During Transformer Training: Inductive
Bias from Gradient Descent [44.44543743806831]
本研究では, トレーニング中にこれらの標準間に飽和しながら, 変圧器パラメータが大きくなる傾向について検討した。
パラメータが大きくなるにつれて、ネットワークは飽和活性化関数を持つ離散化されたネットワークに近似することが証明される。
以上の結果から,飽和はNLPに対する特定の関心のGDに暗黙的な誘導バイアスの新たな特徴であることが示唆された。
論文 参考訳(メタデータ) (2020-10-19T17:40:38Z) - On Layer Normalization in the Transformer Architecture [112.40350994368741]
まず,学習速度のウォームアップが重要である理由を理論的に検討し,レイヤー正規化の位置が重要であることを示す。
ウォームアップステージのないPre-LNトランスフォーマーはベースラインと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-12T00:33:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。