論文の概要: Beyond Progress Measures: Theoretical Insights into the Mechanism of Grokking
- arxiv url: http://arxiv.org/abs/2504.03162v2
- Date: Mon, 14 Apr 2025 08:32:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:44:50.118438
- Title: Beyond Progress Measures: Theoretical Insights into the Mechanism of Grokking
- Title(参考訳): プログレッシブ対策を超えて : グローキングのメカニズムの理論的考察
- Authors: Zihan Gu, Ruoyu Chen, Hua Zhang, Yue Hu, Xiaochun Cao,
- Abstract要約: グロキング(Grokking)とは、オーバーフィッティングの拡張後のテスト精度の急激な改善を指す。
本研究では、素数演算のタスクにおいて、Transformerの基盤となるグルーキング機構について検討する。
- 参考スコア(独自算出の注目度): 50.465604300990904
- License:
- Abstract: Grokking, referring to the abrupt improvement in test accuracy after extended overfitting, offers valuable insights into the mechanisms of model generalization. Existing researches based on progress measures imply that grokking relies on understanding the optimization dynamics when the loss function is dominated solely by the weight decay term. However, we find that this optimization merely leads to token uniformity, which is not a sufficient condition for grokking. In this work, we investigate the grokking mechanism underlying the Transformer in the task of prime number operations. Based on theoretical analysis and experimental validation, we present the following insights: (i) The weight decay term encourages uniformity across all tokens in the embedding space when it is minimized. (ii) The occurrence of grokking is jointly determined by the uniformity of the embedding space and the distribution of the training dataset. Building on these insights, we provide a unified perspective for understanding various previously proposed progress measures and introduce a novel, concise, and effective progress measure that could trace the changes in test loss more accurately. Finally, to demonstrate the versatility of our theoretical framework, we design a dedicated dataset to validate our theory on ResNet-18, successfully showcasing the occurrence of grokking. The code is released at https://github.com/Qihuai27/Grokking-Insight.
- Abstract(参考訳): グロキングは、拡張オーバーフィッティング後のテスト精度の急激な改善を言及し、モデル一般化のメカニズムに関する貴重な洞察を提供する。
進行度測定に基づく既存の研究は、損失関数が減量項のみに支配されるときの最適化力学の理解に依存していることを示唆している。
しかし、この最適化は単にトークンの均一性につながるだけであり、これはグルーキングに十分な条件ではない。
本研究では、素数演算のタスクにおいて、Transformerの基盤となるグルーキング機構について検討する。
理論的分析と実験的検証に基づいて、以下の知見を提示する。
i)重み減衰項は、埋め込み空間におけるすべてのトークンの均一性を最小化する際に促進する。
2)グルーキングの発生は,埋め込み空間の均一性とトレーニングデータセットの分布によって共同で決定される。
これらの知見に基づいて、これまでに提案された様々な進捗対策を理解するための統一的な視点を提供し、テスト損失の変化をより正確に追跡できる新しい、簡潔で効果的な進捗対策を導入する。
最後に,我々の理論フレームワークの汎用性を実証するために,我々のResNet-18理論を検証するための専用データセットを設計し,グラッキングの発生を実証した。
コードはhttps://github.com/Qihuai27/Grokking-Insightで公開されている。
関連論文リスト
- On the Generalization Ability of Unsupervised Pretraining [53.06175754026037]
教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。
本稿では、教師なし事前学習中に得られた知識の伝達可能性に影響を及ぼす重要な要因をその後の微調整フェーズに照らす新しい理論的枠組みを提案する。
この結果は教師なし事前学習と微調整のパラダイムの理解を深め、より効果的な事前学習アルゴリズムの設計に光を当てることができる。
論文 参考訳(メタデータ) (2024-03-11T16:23:42Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Boosted Control Functions: Distribution generalization and invariance in confounded models [10.503777692702952]
非線形で非同定可能な構造関数が存在する場合でも分布の一般化を可能にする不変性という強い概念を導入する。
フレキシブルな機械学習手法を用いて,ブースト制御関数(BCF)を推定する制御Twicingアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-09T15:43:46Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Regularization, early-stopping and dreaming: a Hopfield-like setup to
address generalization and overfitting [0.0]
正規化損失関数に勾配降下を適用し,最適ネットワークパラメータを求める。
この枠組みの中で、最適なニューロン相互作用行列は、繰り返し学習プロトコルによって修正されたヘビアン核に対応する。
論文 参考訳(メタデータ) (2023-08-01T15:04:30Z) - Deep Anti-Regularized Ensembles provide reliable out-of-distribution
uncertainty quantification [4.750521042508541]
深層アンサンブルは、しばしばトレーニングドメインの外で過度に信頼された見積を返す。
トレーニングデータに適合する大きな重みを持つネットワークの集合は、これらの2つの目的を満たす可能性が高いことを示す。
提案手法の理論的枠組みを導出し,提案手法を「水充填問題」とみなすことができることを示す。
論文 参考訳(メタデータ) (2023-04-08T15:25:12Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Hybrid Predictive Coding: Inferring, Fast and Slow [62.997667081978825]
本稿では,反復型と償却型の両方を原則的に組み合わせたハイブリッド予測符号化ネットワークを提案する。
我々は,本モデルが本質的に不確実性に敏感であり,最小計算費用を用いて正確な信念を得るためにバランスを適応的にバランスさせることを実証した。
論文 参考訳(メタデータ) (2022-04-05T12:52:45Z) - Learning Prediction Intervals for Regression: Generalization and
Calibration [12.576284277353606]
不確実性定量のための回帰における予測間隔の生成について検討する。
我々は一般学習理論を用いて、リプシッツ連続性とVC-サブグラフクラスを含む最適性と実現可能性のトレードオフを特徴づける。
我々は既存のベンチマークと比べてテスト性能の点で、区間生成とキャリブレーションアルゴリズムの強みを実証的に示している。
論文 参考訳(メタデータ) (2021-02-26T17:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。