論文の概要: To Grok Grokking: Provable Grokking in Ridge Regression
- arxiv url: http://arxiv.org/abs/2601.19791v1
- Date: Tue, 27 Jan 2026 16:52:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.404756
- Title: To Grok Grokking: Provable Grokking in Ridge Regression
- Title(参考訳): To Grok Grokking: Provable Grokking in Ridge Regression
- Authors: Mingyue Xu, Gal Vardi, Itay Safran,
- Abstract要約: 古典的な尾根回帰条件において, オーバーフィッティング後の一般化の開始点であるグラッキングについて検討した。
理論的にも経験的にも、グルキングは原則的に増幅または排除できることを示す。
以上の結果から,グルーキングは深層学習の固有の障害モードではなく,特定の訓練条件の結果であることが示唆された。
- 参考スコア(独自算出の注目度): 24.785366757570202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study grokking, the onset of generalization long after overfitting, in a classical ridge regression setting. We prove end-to-end grokking results for learning over-parameterized linear regression models using gradient descent with weight decay. Specifically, we prove that the following stages occur: (i) the model overfits the training data early during training; (ii) poor generalization persists long after overfitting has manifested; and (iii) the generalization error eventually becomes arbitrarily small. Moreover, we show, both theoretically and empirically, that grokking can be amplified or eliminated in a principled manner through proper hyperparameter tuning. To the best of our knowledge, these are the first rigorous quantitative bounds on the generalization delay (which we refer to as the "grokking time") in terms of training hyperparameters. Lastly, going beyond the linear setting, we empirically demonstrate that our quantitative bounds also capture the behavior of grokking on non-linear neural networks. Our results suggest that grokking is not an inherent failure mode of deep learning, but rather a consequence of specific training conditions, and thus does not require fundamental changes to the model architecture or learning algorithm to avoid.
- Abstract(参考訳): 古典的な尾根回帰条件において, オーバーフィッティング後の一般化の開始点であるグラッキングについて検討した。
重み付き勾配降下を用いた過度パラメータ化線形回帰モデル学習のためのエンドツーエンドのグルーキング結果を証明した。
具体的には、次の段階が生じることを証明します。
i) モデルは,訓練中に早期にトレーニングデータを過度に適合させる。
(二 過度に適合した後、貧弱な一般化が長く続くこと。)
(iii) 一般化誤差は最終的に任意に小さくなる。
さらに、理論上も経験的にも、グラッキングは適切なハイパーパラメータチューニングによって、原則的に増幅または除去可能であることを示す。
私たちの知る限りでは、これらはハイパーパラメータのトレーニングにおいて、一般化遅延("grokking time"と呼ばれる)に関する最初の厳密な量的境界である。
最後に、線形設定を超えて、我々の量的境界が非線形ニューラルネットワーク上でのグルーキングの挙動を捉えることを実証的に実証する。
以上の結果から,グルーキングは深層学習の固有の障害モードではなく,特定の訓練条件の結果であり,モデルアーキテクチャや学習アルゴリズムに根本的な変更を加える必要はないことが示唆された。
関連論文リスト
- The Geometry of Grokking: Norm Minimization on the Zero-Loss Manifold [5.076419064097734]
暗記後の学習は、制約付き最適化のレンズを通して理解することができると論じる。
勾配降下は、零損失多様体上の重みノルムを効果的に最小化することを示す。
実験により,予測勾配を用いた学習過程のシミュレーションは,グルーキングの遅延一般化と表現学習特性の両方を再現することを確認した。
論文 参考訳(メタデータ) (2025-11-02T18:44:42Z) - Beyond Progress Measures: Theoretical Insights into the Mechanism of Grokking [50.465604300990904]
グロキング(Grokking)とは、オーバーフィッティングの拡張後のテスト精度の急激な改善を指す。
本研究では、素数演算のタスクにおいて、Transformerの基盤となるグルーキング機構について検討する。
論文 参考訳(メタデータ) (2025-04-04T04:42:38Z) - Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - On Regularization via Early Stopping for Least Squares Regression [4.159762735751163]
我々は、任意のスペクトルを持つ汎用データや、幅広い学習率スケジュールにおいて、早期停止が有益であることを証明した。
最適停止時間を推定し,推定値の精度を実証的に示す。
論文 参考訳(メタデータ) (2024-06-06T18:10:51Z) - Understanding Grokking Through A Robustness Viewpoint [3.23379981095083]
ニューラルネットワークの一般的な$l$ノルム(メトリック)は、実際にはグルークするのに十分な条件であることを示す。
我々は、ロバストネスと情報理論に基づく新しいメトリクスを提案し、我々の新しいメトリクスがグラッキング現象とよく相関し、グラッキングを予測するのに使用できることを発見した。
論文 参考訳(メタデータ) (2023-11-11T15:45:44Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文 参考訳(メタデータ) (2020-08-15T20:55:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。