論文の概要: Why Do You Grok? A Theoretical Analysis of Grokking Modular Addition
- arxiv url: http://arxiv.org/abs/2407.12332v1
- Date: Wed, 17 Jul 2024 06:15:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 18:17:30.666801
- Title: Why Do You Grok? A Theoretical Analysis of Grokking Modular Addition
- Title(参考訳): なぜグロッキングするのか? : グロキングモジュール付加の理論解析
- Authors: Mohamad Amin Mohamadi, Zhiyuan Li, Lei Wu, Danica J. Sutherland,
- Abstract要約: 我々は、モデルが過度に適合した後長く一般化するグラッキング現象の理論的な説明を示す。
勾配降下の早い段階では、全ての可能なデータポイントの少なくとも一定の分数しか見つからなければ、モジュラー加算における置換同変モデルによる小さな集団誤差が得られないことが示される。
我々は,有界な$ell_infty$ノルムでゼロのトレーニング損失を達成する2層二次ネットワークが,ほぼ少ないトレーニングポイントを持つことを示すとともに,そのようなネットワークが存在することを示すとともに,小さな$ell_infty$正規化による勾配降下によって発見できることを示す。
- 参考スコア(独自算出の注目度): 17.33492222531616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a theoretical explanation of the ``grokking'' phenomenon, where a model generalizes long after overfitting,for the originally-studied problem of modular addition. First, we show that early in gradient descent, when the ``kernel regime'' approximately holds, no permutation-equivariant model can achieve small population error on modular addition unless it sees at least a constant fraction of all possible data points. Eventually, however, models escape the kernel regime. We show that two-layer quadratic networks that achieve zero training loss with bounded $\ell_{\infty}$ norm generalize well with substantially fewer training points, and further show such networks exist and can be found by gradient descent with small $\ell_{\infty}$ regularization. We further provide empirical evidence that these networks as well as simple Transformers, leave the kernel regime only after initially overfitting. Taken together, our results strongly support the case for grokking as a consequence of the transition from kernel-like behavior to limiting behavior of gradient descent on deep networks.
- Abstract(参考訳): 本稿では,<grokking' 現象を理論的に説明し,モデルが過度に適合した後長く一般化し,もともと研究されたモジュラー加法問題について述べる。
まず,「カーネル・システマティクス」が概ね成り立つような勾配降下の早い段階では,全ての可能なデータポイントの少なくとも一定の分数しか見つからなければ,モジュラー加法における置換同変モデルによる小さな集団誤差は得られないことを示す。
しかし、最終的にはモデルがカーネル体制から逃れることになる。
有界$\ell_{\infty}=ノルムでゼロのトレーニング損失を達成する2層二次ネットワークは、かなり少ないトレーニングポイントでうまく一般化し、さらにそのようなネットワークが存在することを示すとともに、小さな$\ell_{\infty}$正規化で勾配降下によって見つけることができる。
さらに、これらのネットワークと単純なトランスフォーマーが、当初過度に適合した後にカーネル体制を離れるという実証的な証拠も提供します。
その結果,カーネルのような挙動から深いネットワーク上の勾配降下の挙動の制限への遷移の結果,グラッキングの事例を強く支持した。
関連論文リスト
- Generalization of Scaled Deep ResNets in the Mean-Field Regime [55.77054255101667]
無限深度および広帯域ニューラルネットワークの限界におけるエンスケールResNetについて検討する。
この結果から,遅延学習体制を超えた深層ResNetの一般化能力に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2024-03-14T21:48:00Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Grokking as the Transition from Lazy to Rich Training Dynamics [35.186196991224286]
グルーキングは、ニューラルネットワークの列車の損失がテスト損失よりもはるかに早く減少するときに起こる。
グルーキングの主要な要因は、特徴学習の速度と、初期特徴と対象関数とのアライメントである。
論文 参考訳(メタデータ) (2023-10-09T19:33:21Z) - Gradient Descent Monotonically Decreases the Sharpness of Gradient Flow
Solutions in Scalar Networks and Beyond [30.545436106324203]
ニューラルネットワークにグラディエントDescentを適用すると、損失はほぼ単調に減少する。
代わりに、勾配勾配が「安定のエッジ」に収束するにつれて損失は振動する(EoS)。
論文 参考訳(メタデータ) (2023-05-22T14:27:27Z) - Greedy Pruning with Group Lasso Provably Generalizes for Matrix Sensing [30.508036898655114]
プルーニングスキームは、大量のパラメータを持つ訓練されたモデルの複雑さを減らすために、実際に広く用いられている。
正規化がない場合の勾配降下は、グリーディプルーニングに適さないモデル、すなわち、多くの列が最大値に匹敵する$ell$ノルムを持つことができる。
以上の結果から,グリーディ・プルーニング+ファインチューニングがより小さなモデルに繋がる理由について,より厳密な考察が得られた。
論文 参考訳(メタデータ) (2023-03-20T21:05:44Z) - Gradient Descent Optimizes Infinite-Depth ReLU Implicit Networks with
Linear Widths [25.237054775800164]
本稿では非線形ReLU活性化暗黙ネットワークにおける勾配流と勾配勾配の収束について検討する。
GF と GD のどちらも,暗黙的ネットワークの幅$m$ が標本サイズでテキストリニアであれば,線形速度で大域最小値に収束することが証明される。
論文 参考訳(メタデータ) (2022-05-16T06:07:56Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Implicit Bias in Deep Linear Classification: Initialization Scale vs
Training Accuracy [71.25689267025244]
移行がスケールとトレーニング損失の最小化の関係によってどのように制御されるかを示す。
以上の結果から,勾配降下の限界挙動は,ばかげた訓練精度でのみ引き起こされることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T23:49:53Z) - Neural Networks are Convex Regularizers: Exact Polynomial-time Convex
Optimization Formulations for Two-layer Networks [70.15611146583068]
我々は、線形整列ユニット(ReLU)を用いた2層ニューラルネットワークのトレーニングの正確な表現を開発する。
我々の理論は半無限双対性と最小ノルム正規化を利用する。
論文 参考訳(メタデータ) (2020-02-24T21:32:41Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。