論文の概要: A Systematic Empirical Study of Grokking: Depth, Architecture, Activation, and Regularization
- arxiv url: http://arxiv.org/abs/2603.25009v1
- Date: Thu, 26 Mar 2026 04:16:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.09283
- Title: A Systematic Empirical Study of Grokking: Depth, Architecture, Activation, and Regularization
- Title(参考訳): 農業の体系的実証的研究--深さ・建築・活性化・正規化
- Authors: Shalima Binta Manir, Anamika Paul Rupa,
- Abstract要約: 暗記からニューラルネットワークの一般化への遅れた遷移をグロッキングすることは、まだ理解されていない。
モジュラー加算に関する因子を系統的に分散させる制御された研究(mod 97)を提案する。
我々の中心的な発見は、グラッキングダイナミクスはアーキテクチャーによって決定されるのではなく、安定性と正規化の間の相互作用によって決定されることである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grokking the delayed transition from memorization to generalization in neural networks remains poorly understood, in part because prior empirical studies confound the roles of architecture, optimization, and regularization. We present a controlled study that systematically disentangles these factors on modular addition (mod 97), with matched and carefully tuned training regimes across models. Our central finding is that grokking dynamics are not primarily determined by architecture, but by interactions between optimization stability and regularization. Specifically, we show: (1) \textbf{depth has a non-monotonic effect}, with depth-4 MLPs consistently failing to grok while depth-8 residual networks recover generalization, demonstrating that depth requires architectural stabilization; (2) \textbf{the apparent gap between Transformers and MLPs largely disappears} (1.11$\times$ delay) under matched hyperparameters, indicating that previously reported differences are largely due to optimizer and regularization confounds; (3) \textbf{activation function effects are regime-dependent}, with GELU up to 4.3$\times$ faster than ReLU only when regularization permits memorization; and (4) \textbf{weight decay is the dominant control parameter}, exhibiting a narrow ``Goldilocks'' regime in which grokking occurs, while too little or too much prevents generalization. Across 3--5 seeds per configuration, these results provide a unified empirical account of grokking as an interaction-driven phenomenon. Our findings challenge architecture-centric interpretations and clarify how optimization and regularization jointly govern delayed generalization.
- Abstract(参考訳): 暗記からニューラルネットワークの一般化への移行が遅れた理由は、以前の経験的研究がアーキテクチャ、最適化、正規化の役割を混乱させたためである。
本研究は,これらの因子をモジュール追加(mod 97)に系統的に分散させる制御された研究であり,モデル間で一致し,慎重に調整されたトレーニング体制である。
我々の中心的な発見は、グラッキングダイナミクスはアーキテクチャによって決定されるのではなく、最適化安定性と正規化の間の相互作用によって決定されることである。
具体的には, (1) \textbf{depth has a non-monotonic effect}, with depth-4 MLPs consistent fail to grok while depth-8 residual networks recovery generalization, demonstrate that depth requires architectural stabilization; (2) \textbf{the apparent gap between Transformers and MLPs largely disappears} (1.11$\times$ delay) under matched hyperparameters, showed that previously reported difference is mostly by optr and regularization confounds, (3) \textbf{activation function effects are regime-dependent}, with GELU has up up 4.3$\times $ faster than ReLU only if if when regularization memorization, (4) \textbf{weight decay is the dominant control}, show `Gold's's opking's's ops, so possible, and too possible, so possible, so possible, so, so possible, so。
これらの結果は、相互作用駆動現象としてグルーキングの統一的な経験的説明を提供する。
アーキテクチャ中心の解釈に挑戦し,最適化と正規化が協調的に一般化を遅らせる方法を明らかにする。
関連論文リスト
- Grokking as a Variance-Limited Phase Transition: Spectral Gating and the Epsilon-Stability Threshold [0.0]
一般化には、適応に固有のテクスタイニソトロピックな修正が必要であり、これは溶液の接空間にノイズを誘導する。
この研究は、モジュラー演算タスクにおけるAdamWのダイナミクスを分析し、一般化から記憶への遷移を制御するスペクトルゲーティングのメカニズムを明らかにする。
論文 参考訳(メタデータ) (2026-03-16T16:18:18Z) - Alternating Gradient Flow Utility: A Unified Metric for Structural Pruning and Dynamic Routing in Deep Networks [52.153950303594684]
交互勾配流(Alternating Gradient Flow, AGF)に着想を得た非結合型運動パラダイムを提案する。
AGFはネットワークの構造的「運動ユーティリティ」を正確にキャプチャする
我々は、AGFに誘導されるオフライン構造探索を、ゼロコストの物理プリミティブを介してオンライン実行から切り離すハイブリッドルーティングフレームワークを設計する。
論文 参考訳(メタデータ) (2026-03-12T18:19:21Z) - Norm-Hierarchy Transitions in Representation Learning: When and Why Neural Networks Abandon Shortcuts [0.0]
遅延表現学習を説明するNorm-Hierarchy Transition (NHT) フレームワークを紹介する。
我々は、遷移遅延がショートカットと構造化ノルムの比で対数的に増加することを示す厳密な境界を導出する。
論文 参考訳(メタデータ) (2026-03-07T20:07:16Z) - The Geometric Inductive Bias of Grokking: Bypassing Phase Transitions via Architectural Topology [0.0]
巡回加法(Zp)を訓練した変圧器のグルーキング-遅れ一般化に関する研究
標準変圧器における2つの独立した構造因子:表現の大きさとデータ依存型アテンションルーティングを同定する。
論文 参考訳(メタデータ) (2026-03-05T14:41:01Z) - ConsistentRFT: Reducing Visual Hallucinations in Flow-based Reinforcement Fine-Tuning [85.20505958752928]
フローベースモデル上での強化ファインチューニング(RFT)は、優先順位調整に不可欠である。
RFTは、過度に最適化された詳細や意味的なミスアライメントのような視覚幻覚をしばしば導入する。
この研究は、なぜ視覚幻覚が生じるのか、どのようにそれらを減らすのかを予備的に探求する。
論文 参考訳(メタデータ) (2026-02-03T11:49:46Z) - Majorization-Minimization Networks for Inverse Problems: An Application to EEG Imaging [4.063392865490957]
逆問題はしばしば誤りを犯し、強い安定性と収束を保証する最適化スキームを必要とする。
本稿では,二段階最適化設定における逆問題に対する学習されたMajorization-Minimization(MM)フレームワークを提案する。
我々は,古典的MM降下保証を保ちながら,各MMステップを管理する構造化曲率行列を学習する。
論文 参考訳(メタデータ) (2026-01-23T10:33:45Z) - The Procrustean Bed of Time Series: The Optimization Bias of Point-wise Loss [53.542743390809356]
本稿では,最適化バイアス(EOB)の期待に関する第一原理解析を提案する。
時間列が決定論的で構造化されるほど、ポイントワイドの損失関数によるバイアスがより厳しくなる。
本稿では,DFTとDWTの両原理を同時に実現する具体的ソリューションを提案する。
論文 参考訳(メタデータ) (2025-12-21T06:08:22Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Supporting Optimal Phase Space Reconstructions Using Neural Network
Architecture for Time Series Modeling [68.8204255655161]
位相空間特性を暗黙的に学習する機構を持つ人工ニューラルネットワークを提案する。
私たちのアプローチは、ほとんどの最先端戦略と同じくらいの競争力があるか、あるいは優れているかのどちらかです。
論文 参考訳(メタデータ) (2020-06-19T21:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。