論文の概要: Grokking as Structural Inference: Transformers Need Bayesian Lottery Tickets
- arxiv url: http://arxiv.org/abs/2605.15787v1
- Date: Fri, 15 May 2026 09:46:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.239835
- Title: Grokking as Structural Inference: Transformers Need Bayesian Lottery Tickets
- Title(参考訳): 構造推論としてのグローキング:トランスフォーマーはベイズ的ロテリティケットを必要とする
- Authors: Kai Hidajat, Solden Stoll, Joseph An,
- Abstract要約: トレーニングセットを記憶したトランスフォーマーが一般化する前に数千ステップ待つ理由を考察する。
我々は,KLに基づく構造的介入によって,この説明の遅れを回避できることを証明した。
アルゴリズムシークエンスタスクの実験では、構造をキャパシティから分離し、このベイズチケットが抽選チケットの転送にマッチするか、性能を上回っていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Why does a Transformer that has memorized its training set wait thousands of steps before it generalizes? Existing accounts locate this delay in norm minimization, feature emergence, or the late discovery of sparse subnetworks. These explanations capture important parts of the transition, but ignore a constraint unique to attention-based models: if attention discards an informative token, no bounded downstream computation can recover it. We formalize attention as an implicit Bayesian posterior over the task dependency graph and prove that generalization requires two separable conditions: a familiar Goldilocks bound on MLP capacity, coinciding with norm-based theories of grokking, and a novel Bayesian structural condition requiring attention to place sufficient mass on every informative token. This decoupling explains delayed generalization as delayed structural inference. Early in training, the MLP memorizes through unaligned features, drives the cross-entropy loss near zero, and thereby starves attention of structural gradient. Weight decay must then erode memorization before the missing graph becomes learnable, yielding the known inverse-weight-decay delay, which we derive as a structural waiting time. We then prove that this explaining-away delay can be bypassed by a KL-based structural intervention, yielding an inverse-intervention-strength scaling law for the grokking time. Experiments on algorithmic sequence tasks isolate structure from capacity and show that this Bayesian ticket matches or outperforms lottery-ticket transfer.
- Abstract(参考訳): なぜ、トレーニングセットを記憶したTransformerは、一般化する前に何千ステップも待つのだろうか?
既存のアカウントは、ノルムの最小化、特徴の出現、スパースサブネットワークの発見の遅れにこの遅延を見つける。
これらの説明は遷移の重要な部分を捉えているが、注意に基づくモデルに特有の制約を無視している。
我々は、タスク依存グラフ上の暗黙のベイズ後部として注意を定式化し、一般化には2つの分離可能な条件が必要であることを証明した。
この分離は、遅延構造推論として遅延一般化を説明する。
訓練の初期段階では、MLPは不整合の特徴を記憶し、ゼロに近いエントロピー損失を駆動し、構造勾配に注意を向ける。
ウェイト崩壊は、不足グラフが学習できるようになる前に記憶を省略し、既知の逆ウェイト・デカイ遅延を生じさせ、構造的待ち時間として引き起こす。
そして、この説明に基づく遅延をKLに基づく構造的介入によって回避できることを証明し、逆干渉強度スケーリング法をグルーキング時間に導出する。
アルゴリズムシークエンスタスクの実験では、構造をキャパシティから分離し、このベイズチケットが抽選チケットの転送にマッチしたり、性能を上回ることを示す。
関連論文リスト
- Norm-Hierarchy Transitions in Representation Learning: When and Why Neural Networks Abandon Shortcuts [0.0]
遅延表現学習を説明するNorm-Hierarchy Transition (NHT) フレームワークを紹介する。
我々は、遷移遅延がショートカットと構造化ノルムの比で対数的に増加することを示す厳密な境界を導出する。
論文 参考訳(メタデータ) (2026-03-07T20:07:16Z) - Recurrence-Complete Frame-based Action Models [0.06768558752130312]
Attention Is All You Need" は、RNN細胞は注意とともに必要ではないと主張していることで有名である。
我々は、非再帰完全モデルが入力を正しく集約できない臨界時間tを予想する。
これを解決するために、繰り返し完全アーキテクチャを導入し、GitHubから派生したアクションシーケンスでトレーニングします。
論文 参考訳(メタデータ) (2025-10-08T09:50:41Z) - Understanding Transformers for Time Series: Rank Structure, Flow-of-ranks, and Compressibility [90.894232610821]
我々は、ランク構造のレンズを通してトランスフォーマーを解析する。
時系列埋め込みは急激な減衰特異値スペクトルを示すことを示す。
関連する$Q/K/V$プロジェクションが正確な低ランク近似を持つことを示す。
論文 参考訳(メタデータ) (2025-10-02T23:56:17Z) - Provable In-Context Learning of Nonlinear Regression with Transformers [66.99048542127768]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。
最近の研究はICLの背後にあるトレーニングのダイナミクスを積極的に探求しており、その多くは比較的単純なタスクに重点を置いている。
本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文 参考訳(メタデータ) (2025-07-28T00:09:28Z) - Beyond Progress Measures: Theoretical Insights into the Mechanism of Grokking [50.465604300990904]
グロキング(Grokking)とは、オーバーフィッティングの拡張後のテスト精度の急激な改善を指す。
本研究では、素数演算のタスクにおいて、Transformerの基盤となるグルーキング機構について検討する。
論文 参考訳(メタデータ) (2025-04-04T04:42:38Z) - Curse of Attention: A Kernel-Based Perspective for Why Transformers Fail to Generalize on Time Series Forecasting and Beyond [17.002793355495136]
TSFタスクにおける変圧器の非効率性に関する最初の理論的説明を提案する。
トレーニングアテンションネットワークにおけるbf非対称学習のメカニズムを考察する。
論文 参考訳(メタデータ) (2024-12-08T20:29:06Z) - How Transformers Learn Causal Structure with Gradient Descent [44.31729147722701]
自己注意はトランスフォーマーが因果構造をエンコードすることを可能にする。
我々は、潜在因果構造を学習する必要があるコンテキスト内学習タスクを導入する。
我々は、文脈内学習タスクで訓練されたトランスフォーマーが、様々な因果構造を回復できることを示す。
論文 参考訳(メタデータ) (2024-02-22T17:47:03Z) - Bridging Lottery Ticket and Grokking: Understanding Grokking from Inner Structure of Networks [27.020990219204343]
内部ネットワーク構造がグラッキングに与える影響について検討する。
一般化段階での宝くじの利用は,遅延一般化を著しく減少させることを示す。
グルーク付きチケットは,周期的な重みパターン,有益なグラフ特性を示し,急激な構造変化を呈する。
論文 参考訳(メタデータ) (2023-10-30T11:58:44Z) - CARD: Channel Aligned Robust Blend Transformer for Time Series
Forecasting [50.23240107430597]
本稿では,CARD(Channel Aligned Robust Blend Transformer)という特殊なトランスを設計する。
まず、CARDはチャネルに沿ったアテンション構造を導入し、信号間の時間的相関をキャプチャする。
第二に、マルチスケール知識を効率的に活用するために、異なる解像度のトークンを生成するトークンブレンドモジュールを設計する。
第3に,潜在的な過度な問題を軽減するため,時系列予測のためのロバストな損失関数を導入する。
論文 参考訳(メタデータ) (2023-05-20T05:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。