論文の概要: Grokking and Generalization Collapse: Insights from \texttt{HTSR} theory
- arxiv url: http://arxiv.org/abs/2506.04434v1
- Date: Wed, 04 Jun 2025 20:34:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.417004
- Title: Grokking and Generalization Collapse: Insights from \texttt{HTSR} theory
- Title(参考訳): グローキングと一般化崩壊: \texttt{HTSR} 理論の考察
- Authors: Hari K. Prakash, Charles H. Martin,
- Abstract要約: MNISTの1kサンプルサブセットをトレーニングした3層構造を用いて,ニューラルネットワーク(NN)のグルーキング現象について検討した。
我々は、訓練の非常に遅くに起こる新しい第3段階(エンファンティ・グロッキング)を発見し、よく知られたエンファンティ・グロキングフェーズとは異なる。
- 参考スコア(独自算出の注目度): 4.371245698184159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the well-known grokking phenomena in neural networks (NNs) using a 3-layer MLP trained on 1 k-sample subset of MNIST, with and without weight decay, and discover a novel third phase -- \emph{anti-grokking} -- that occurs very late in training and resembles but is distinct from the familiar \emph{pre-grokking} phases: test accuracy collapses while training accuracy stays perfect. This late-stage collapse is distinct, from the known pre-grokking and grokking phases, and is not detected by other proposed grokking progress measures. Leveraging Heavy-Tailed Self-Regularization HTSR through the open-source WeightWatcher tool, we show that the HTSR layer quality metric $\alpha$ alone delineates all three phases, whereas the best competing metrics detect only the first two. The \emph{anti-grokking} is revealed by training for $10^7$ and is invariably heralded by $\alpha < 2$ and the appearance of \emph{Correlation Traps} -- outlier singular values in the randomized layer weight matrices that make the layer weight matrix atypical and signal overfitting of the training set. Such traps are verified by visual inspection of the layer-wise empirical spectral densities, and by using Kolmogorov--Smirnov tests on randomized spectra. Comparative metrics, including activation sparsity, absolute weight entropy, circuit complexity, and $l^2$ weight norms track pre-grokking and grokking but fail to distinguish grokking from anti-grokking. This discovery provides a way to measure overfitting and generalization collapse without direct access to the test data. These results strengthen the claim that the \emph{HTSR} $\alpha$ provides universal layer-convergence target at $\alpha \approx 2$ and underscore the value of using the HTSR alpha $(\alpha)$ metric as a measure of generalization.
- Abstract(参考訳): ニューラルネットワーク(NN)におけるよく知られたグルーキング現象を、MNISTの1kサンプルサブセットでトレーニングされた3層MLPを用いて研究し、トレーニングの非常に遅くから類似しているが、慣れ親しんだ'emph{pre-grokking'フェーズとは違い、トレーニング精度が完璧でありながら、テスト精度が崩壊する。
この後期崩壊は、既知の前氷期や黒化期と異なり、他の提案された黒化進行測定では検出されない。
WeightWatcherツールを使用すれば、HTSR層の品質測定値が$\alpha$単独で3つのフェーズすべてを明確にするのに対して、最も競合する指標は最初の2つのみを検出する。
\emph{anti-grokking} は10^7$のトレーニングによって明らかにされ、必ず $\alpha < 2$ と \emph{Correlation Traps} の出現によって表される。
このようなトラップは、層単位での経験的スペクトル密度を視覚的に検査し、ランダム化スペクトルのコルモゴロフ-スミルノフ検定を用いて検証する。
アクティベーション空間、絶対重みエントロピー、回路複雑性、および$l^2$のウェイトノルムを含む比較指標は、プレグロキングとグラッキングを追跡するが、反グロキングとグルーキングを区別することができない。
この発見は、テストデータに直接アクセスすることなく、オーバーフィッティングと一般化の崩壊を測定する手段を提供する。
これらの結果は、 \emph{HTSR} $\alpha$ が$\alpha \approx 2$ で普遍層収束ターゲットを提供し、一般化の尺度として HTSR alpha $(\alpha)$ metric を使うことの価値を低くする、という主張を強化する。
関連論文リスト
- Sharper Guarantees for Learning Neural Network Classifiers with Gradient Methods [43.32546195968771]
本研究では,スムーズなアクティベーションを有するニューラルネットワークに対する勾配法におけるデータ依存収束と一般化挙動について検討する。
我々の結果は、よく確立されたRadecher複雑性に基づく境界の欠点を改善した。
XOR分布の分類において、NTK体制の結果に対して大きなステップサイズが大幅に改善されることが示されている。
論文 参考訳(メタデータ) (2024-10-13T21:49:29Z) - Langevin dynamics for high-dimensional optimization: the case of multi-spiked tensor PCA [8.435118770300999]
本研究では,最大SNRに伴うスパイクの回復に必要なサンプルの複雑さが,シングルスパイクの場合のよく知られたアルゴリズムしきい値と一致することを示す。
重要なステップとして、高次元の軌道力学を捉えるスパイクと相互作用の詳細なキャラクタリゼーションを提供する。
論文 参考訳(メタデータ) (2024-08-12T12:09:25Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Stochastic Gradient Succeeds for Bandits [64.17904367852563]
エンフィスト確率勾配帯域幅アルゴリズムは,O (1/t)$レートで,エンフィグロブな最適ポリシに収束することを示す。
興味深いことに、勾配帯域アルゴリズムのグローバル収束は以前に確立されていない。
論文 参考訳(メタデータ) (2024-02-27T06:05:01Z) - Local primordial non-Gaussianity from the large-scale clustering of photometric DESI luminous red galaxies [5.534428269834764]
我々は、Dark Energy Spectroscopic Instruments(DESI)による局所原始非ガウス性パラメータ$fnl$を制約するために、光赤銀河の角度クラスタリングを用いる。
このサンプルは1200万以上の目標からなり、空の14,000平方度をカバーし、赤方偏移は0.2 z 1.35$である。
我々は, 銀河の絶滅, 調査深度, 天体観測を系統的誤りの主な原因とみなし, 大規模での非宇宙的余剰クラスタリングを緩和するために線形回帰と人工ニューラルネットワークを用いる。
論文 参考訳(メタデータ) (2023-07-04T14:49:23Z) - MixCycle: Mixup Assisted Semi-Supervised 3D Single Object Tracking with
Cycle Consistency [81.49482678098464]
3Dシングルオブジェクトトラッキング(SOT)は、自動走行の必要不可欠な部分である。
教師なし2次元SOTにおけるサイクルトラッキングの大成功に触発されて,我々は最初の半教師付きアプローチを3次元SOTに導入した。
具体的には,1) 学習の初期段階においてモデルをよりよく収束させるためにラベルを利用する自己追跡サイクル,2) 運動変動に対するトラッカーの頑健さとテンプレート更新戦略によるテンプレートノイズを補強する前向きサイクル,という2つのサイクル整合性戦略を導入する。
論文 参考訳(メタデータ) (2023-03-16T10:48:59Z) - Improved techniques for deterministic l2 robustness [63.34032156196848]
畳み込みニューラルネットワーク(CNN)を$l_2$ノルムの下で厳密な1-Lipschitz制約で訓練することは、対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。
我々は,最後の線形層を1重層に置き換えることで,1-Lipschitz CNNのロバスト性を証明する手法を提案する。
我々は,CIFAR-10およびCIFAR-100における標準および証明可能な堅牢な精度の最先端化を図る。
論文 参考訳(メタデータ) (2022-11-15T19:10:12Z) - Mean-Shifted Contrastive Loss for Anomaly Detection [34.97652735163338]
そこで本研究では,集中損失法とコントラスト損失法の両方の障害モードを克服できる新たな損失関数を提案する。
私たちの改善は、$textitMean-Shifted Contrastive Loss$に基づいて、新しい異常検出アプローチをもたらします。
提案手法は,ROC-AUC$9.5%を含む複数のベンチマークにおいて,最先端の異常検出性能を実現する。
論文 参考訳(メタデータ) (2021-06-07T17:58:03Z) - Sharp Statistical Guarantees for Adversarially Robust Gaussian
Classification [54.22421582955454]
逆向きに頑健な分類の過剰リスクに対する最適ミニマックス保証の最初の結果を提供する。
結果はAdvSNR(Adversarial Signal-to-Noise Ratio)の項で述べられており、これは標準的な線形分類と逆数設定との類似の考え方を一般化している。
論文 参考訳(メタデータ) (2020-06-29T21:06:52Z) - The Generalized Lasso with Nonlinear Observations and Generative Priors [63.541900026673055]
我々は、幅広い測定モデルで満たされるガウス下測度を仮定する。
この結果から, 局所埋込特性を仮定して, 均一回復保証まで拡張できることが示唆された。
論文 参考訳(メタデータ) (2020-06-22T16:43:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。