論文の概要: The Geometric Inductive Bias of Grokking: Bypassing Phase Transitions via Architectural Topology
- arxiv url: http://arxiv.org/abs/2603.05228v2
- Date: Tue, 10 Mar 2026 17:16:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.676038
- Title: The Geometric Inductive Bias of Grokking: Bypassing Phase Transitions via Architectural Topology
- Title(参考訳): グローキングの幾何学的帰納的バイアス--構造的トポロジーによる相転移の回避
- Authors: Alper Yıldırım,
- Abstract要約: 巡回加法(Zp)を訓練した変圧器のグルーキング-遅れ一般化に関する研究
標準変圧器における2つの独立した構造因子:表現の大きさとデータ依存型アテンションルーティングを同定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanistic interpretability typically relies on post-hoc analysis of trained networks. We instead adopt an interventional approach: testing hypotheses a priori by modifying architectural topology to observe training dynamics. We study grokking - delayed generalization in Transformers trained on cyclic modular addition (Zp) - investigating if specific architectural degrees of freedom prolong the memorization phase. We identify two independent structural factors in standard Transformers: unbounded representational magnitude and data-dependent attention routing. First, we introduce a fully bounded spherical topology enforcing L2 normalization throughout the residual stream and an unembedding matrix with a fixed temperature scale. This removes magnitude-based degrees of freedom, reducing grokking onset time by over 20x without weight decay. Second, a Uniform Attention Ablation overrides data-dependent query-key routing with a uniform distribution, reducing the attention layer to a Continuous Bag-of-Words (CBOW) aggregator. Despite removing adaptive routing, these models achieve 100% generalization across all seeds and bypass the grokking delay entirely. To evaluate whether this acceleration is a task-specific geometric alignment rather than a generic optimization stabilizer, we use non-commutative S5 permutation composition as a negative control. Enforcing spherical constraints on S5 does not accelerate generalization. This suggests eliminating the memorization phase depends strongly on aligning architectural priors with the task's intrinsic symmetries. Together, these findings provide interventional evidence that architectural degrees of freedom substantially influence grokking, suggesting a predictive structural perspective on training dynamics.
- Abstract(参考訳): 機械的解釈可能性は通常、訓練されたネットワークのポストホック解析に依存する。
テストはアーキテクチャトポロジを変更して、トレーニングのダイナミクスを観察することで優先順位を仮説化します。
循環型加法 (Zp) を訓練したトランスフォーマーにおいて, 特定のアーキテクチャ自由度が記憶位相を延ばすかどうかを調べる。
標準変圧器における2つの独立した構造因子を同定する。
まず, 残留流中におけるL2正規化を強制する完全有界球面トポロジーと, 固定温度スケールの非埋め込み行列を導入する。
これにより、マグニチュードベースの自由度が取り除かれ、重量減衰なしでグルーキング開始時間を20倍以上短縮する。
第2に、Uniform Attention Ablationは、データ依存のクエリキールーティングを均一な分散でオーバーライドし、アテンション層をCBOW(Continuous Bag-of-Words)アグリゲータに還元する。
適応的なルーティングを除去したにもかかわらず、これらのモデルはすべての種を100%一般化し、グルーキング遅延を完全に回避する。
この加速度が汎用的な最適化安定化器よりもタスク固有の幾何アライメントであるかどうかを評価するために、非可換なS5置換合成を負の制御として使用する。
S5 上の球面制約を強制しても一般化は加速しない。
このことは、暗記フェーズの廃止が、タスクの固有の対称性とアーキテクチャ上の前提を整合させることに強く依存していることを示唆している。
これらの知見は、建築的自由度がグルーキングに重大な影響を及ぼすという介入的証拠を提供し、トレーニング力学における予測的構造的視点を示唆している。
関連論文リスト
- The Geometry of Multi-Task Grokking: Transverse Instability, Superposition, and Weight Decay Phase Structure [0.0]
記憶から一般化への急激な移行について, ほぼゼロの訓練損失の後に検討した。
幾何解析をマルチタスクモジュラー演算に拡張する。
結果は、マルチタスクグルーキングがパラメータ空間内のコンパクトな重ね合わせ部分空間を構成する動的図形をサポートする。
論文 参考訳(メタデータ) (2026-02-19T22:39:55Z) - Early-Warning Signals of Grokking via Loss-Landscape Geometry [0.0]
SCAN合成一般化とDyck-1深さ予測の2つのシーケンスラーニングベンチマークについて検討した。
タスクと幅広い学習率の双方において、通勤者欠陥は一般化される前に大きく上昇する。
これらの結果から, コンバータの欠陥は, コンバータの遅延一般化のための, 頑健でアーキテクチャに依存しない, 因果的に早期警戒信号であることがわかった。
論文 参考訳(メタデータ) (2026-02-19T00:14:36Z) - Low-Dimensional and Transversely Curved Optimization Dynamics in Grokking [0.0]
暗記から小さなタスクでの一般化への移行が遅れたグロキングは、まだ理解されていない。
注意重みトラジェクトリのPCAは、トレーニングが低次元の実行部分空間内で主に進化することを明らかにする。
曲線は実行部分空間の方向に急激に成長するのに対して、軌道はそれに限定されていることが分かる。
論文 参考訳(メタデータ) (2026-02-18T03:57:56Z) - Parallel Complex Diffusion for Scalable Time Series Generation [50.01609741902786]
PaCoDiは周波数領域における生成モデリングを分離するスペクトルネイティブアーキテクチャである。
本研究では,PaCoDiが生成品質と推論速度の両方において,既存のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-10T14:31:53Z) - Generalizing GNNs with Tokenized Mixture of Experts [75.8310720413187]
安定性の向上には,変化に敏感な特徴への依存を低減し,既約最悪の一般化フロアを残す必要があることを示す。
本研究では,STEM-GNNを提案する。STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN。
9つのノード、リンク、グラフのベンチマークで、STEM-GNNはより強力な3方向バランスを実現し、クリアグラフ上での競争力を維持しながら、次数/ホモフィリーシフトや特徴/エッジの破損に対する堅牢性を改善している。
論文 参考訳(メタデータ) (2026-02-09T22:48:30Z) - Riemannian Flow Matching for Disentangled Graph Domain Adaptation [51.98961391065951]
グラフドメイン適応(GDA)は典型的には、ユークリッド空間におけるグラフ埋め込みの整列に逆学習を使用する。
DisRFMは、埋め込みとフローベースのトランスポートを統一する幾何学的なGDAフレームワークである。
論文 参考訳(メタデータ) (2026-01-31T11:05:35Z) - Avoiding Premature Collapse: Adaptive Annealing for Entropy-Regularized Structural Inference [1.7523718031184992]
この障害の基本的なメカニズムは、 textbf Premature Mode Collapseである。
提案手法は,適応型スケジューリングアルゴリズムであるtextbfEfficient Piecewise Hybrid Adaptive Stability Control (EPH-ASC) で,推論過程の安定性をモニタする。
論文 参考訳(メタデータ) (2026-01-30T14:47:18Z) - The Procrustean Bed of Time Series: The Optimization Bias of Point-wise Loss [53.542743390809356]
本稿では,最適化バイアス(EOB)の期待に関する第一原理解析を提案する。
時間列が決定論的で構造化されるほど、ポイントワイドの損失関数によるバイアスがより厳しくなる。
本稿では,DFTとDWTの両原理を同時に実現する具体的ソリューションを提案する。
論文 参考訳(メタデータ) (2025-12-21T06:08:22Z) - Pay Attention Later: From Vector Space Diffusion to Linearithmic Spectral Phase-Locking [0.0]
スタンダードトランスフォーマーは「セマンティックアライメント税」に苦しむ
位相共鳴インテリジェントスペクトルモデル(PRISM)を導入する。
PRISMは複素領域(Cd)における共振周波数としてのセマンティックアイデンティティを符号化し、二次自己アテンションをリニアリトミック O(N log N) Gated Harmonic Convolutions に置き換える。
論文 参考訳(メタデータ) (2025-12-01T02:46:15Z) - Geometric-Disentangelment Unlearning [106.99160454669902]
忘れたサンプルへの勾配は しばしば 保持された知識を傷つける
本稿では,GU(Geometric-disment Unlearning)を提案する。
本手法はプラグ・アンド・プレイであり,既存の勾配に基づくアンラーニング手法と併用することで副作用を軽減できる。
論文 参考訳(メタデータ) (2025-11-21T09:58:25Z) - Tracing the Representation Geometry of Language Models from Pretraining to Post-training [22.18942718274405]
本研究では,事前学習と後学習にまたがる学習表現の幾何学をスペクトル的に検討する。
自己回帰事前学習中に3つの幾何位相の一貫した非単調列が発見された。
SFTとDPOは、特定の命令データや優先データを統合するために「エントロピー探索」ダイナミクスを駆動します。
論文 参考訳(メタデータ) (2025-09-27T00:46:29Z) - Pruning Redundant Mappings in Transformer Models via Spectral-Normalized
Identity Prior [54.629850694790036]
スペクトル正規化アイデンティティ事前 (SNIP) は、トランスフォーマーモデルにおける残余モジュール全体をアイデンティティマッピングに向けてペナライズする構造化プルーニング手法である。
5つのGLUEベンチマークタスクでBERTを用いて実験を行い、SNIPが同等の性能を維持しながら効率的な刈り取り結果が得られることを示した。
論文 参考訳(メタデータ) (2020-10-05T05:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。