論文の概要: Dichotomy of Early and Late Phase Implicit Biases Can Provably Induce
Grokking
- arxiv url: http://arxiv.org/abs/2311.18817v1
- Date: Thu, 30 Nov 2023 18:55:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 15:13:03.412169
- Title: Dichotomy of Early and Late Phase Implicit Biases Can Provably Induce
Grokking
- Title(参考訳): 早期・後期の介在性ビアーゼの分枝はおそらくグロッキングを引き起こす
- Authors: Kaifeng Lyu, Jikai Jin, Zhiyuan Li, Simon S. Du, Jason D. Lee, Wei Hu
- Abstract要約: Powerらによる最近の研究は、算術のタスクを学習する際の驚くべき"グロキング"現象を強調した。
ニューラルネットワークはまずトレーニングセットを“記憶”し、完全なトレーニング精度を持つが、ほぼランダムなテスト精度を実現する。
本論文は, 理論設定におけるグルーキング現象を考察し, 初期および後期の暗黙バイアスの2分法により誘導可能であることを示す。
- 参考スコア(独自算出の注目度): 86.43319200586828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work by Power et al. (2022) highlighted a surprising "grokking"
phenomenon in learning arithmetic tasks: a neural net first "memorizes" the
training set, resulting in perfect training accuracy but near-random test
accuracy, and after training for sufficiently longer, it suddenly transitions
to perfect test accuracy. This paper studies the grokking phenomenon in
theoretical setups and shows that it can be induced by a dichotomy of early and
late phase implicit biases. Specifically, when training homogeneous neural nets
with large initialization and small weight decay on both classification and
regression tasks, we prove that the training process gets trapped at a solution
corresponding to a kernel predictor for a long time, and then a very sharp
transition to min-norm/max-margin predictors occurs, leading to a dramatic
change in test accuracy.
- Abstract(参考訳): ニューラルネットワークはトレーニングセットを“記憶する”ことで、完全なトレーニング精度とほぼランダムなテスト精度を実現し、十分に長いトレーニングをした後、突然、完全なテスト精度に移行します。
本報告では, グラッキング現象を理論的に検討し, 初期および後期の暗黙バイアスの2分法により誘導可能であることを示す。
具体的には,分類と回帰タスクの両方において,初期化が小さく軽量な均質なニューラルネットワークをトレーニングする場合,学習過程がカーネル予測器に対応する溶液に長時間閉じ込められ,min-norm/max-margin予測器への非常に鋭い遷移が起こり,テスト精度が劇的に変化することを証明する。
関連論文リスト
- Tune without Validation: Searching for Learning Rate and Weight Decay on
Training Sets [0.0]
Tune without Validation (Twin)は、学習率と体重減少をチューニングするためのパイプラインである。
我々は、20の画像分類データセットに関する広範な実験を行い、ディープネットワークの数家族を訓練する。
我々は,スクラッチと微調整の訓練において適切なHP選択を示し,小サンプルシナリオを強調した。
論文 参考訳(メタデータ) (2024-03-08T18:57:00Z) - Grokking in Linear Estimators -- A Solvable Model that Groks without
Understanding [1.1510009152620668]
グロキングは、トレーニングデータに適合した後、モデルが一般化することを学習する場所である。
線形処理を行う線形ネットワークにおいて、グラッキングが驚くほど起こりうることを解析的および数値的に示す。
論文 参考訳(メタデータ) (2023-10-25T08:08:44Z) - Benign Overfitting and Grokking in ReLU Networks for XOR Cluster Data [42.870635753205185]
勾配降下(GD)によって訓練されたニューラルネットワークは、多くの驚くべき一般化挙動を示した。
これらの現象は、XORクラスタデータ上でGDによって訓練された2層ReLUネットワークにおいて、良好に発生することを示す。
後続のトレーニングステップでは、ネットワークはトレーニングデータにランダムラベルをいまだに適合させながら、ほぼ最適のテスト精度を達成し、"グロッキング"現象を示す。
論文 参考訳(メタデータ) (2023-10-04T02:50:34Z) - Small-scale proxies for large-scale Transformer training instabilities [69.36381318171338]
我々は、小規模でトレーニングの安定性と不安定性を再現し、研究する方法を模索する。
学習速度とスケールによる損失の関係を計測することにより,これらの不安定性は,学習率の高いトレーニングにおいて,小さなモデルにも現れることを示す。
ウォームアップ,ウェイト崩壊,および$mu$Paramなどの手法を用いて,学習速度変化の桁数で同様の損失を被る小さなモデルを訓練する。
論文 参考訳(メタデータ) (2023-09-25T17:48:51Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Benign Overfitting in Two-layer Convolutional Neural Networks [90.75603889605043]
2層畳み込みニューラルネットワーク(CNN)の訓練における良性過剰適合現象の検討
信号対雑音比が一定の条件を満たすと、勾配降下により訓練された2層CNNが任意に小さな訓練と試験損失を達成できることを示す。
一方、この条件が保たない場合、オーバーフィッティングは有害となり、得られたCNNは一定レベルのテスト損失しか達成できない。
論文 参考訳(メタデータ) (2022-02-14T07:45:51Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - When and how epochwise double descent happens [7.512375012141203]
急激な二重降下効果は、一般化誤差が最初は減少し、その後上昇し、最終的にトレーニング時間の増加とともに再び低下する。
このことは、訓練に要する時間の長さが長く、検証性能に基づく早期停止が準最適一般化をもたらすという現実的な問題である。
本研究は, 急激な二重降下は騒音発生に要するが, 第2の臨界騒音レベル以上の早期停止は有効であることを示す。
論文 参考訳(メタデータ) (2021-08-26T19:19:17Z) - Regularizing Class-wise Predictions via Self-knowledge Distillation [80.76254453115766]
類似サンプル間の予測分布を解析する新しい正規化法を提案する。
これにより、単一のネットワークの暗黒知識(すなわち誤った予測に関する知識)を規則化する。
画像分類タスクにおける実験結果から, 単純だが強力な手法が一般化能力を大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-03-31T06:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。