論文の概要: Late-Stage Generalization Collapse in Grokking: Detecting anti-grokking with Weightwatcher
- arxiv url: http://arxiv.org/abs/2602.02859v1
- Date: Mon, 02 Feb 2026 22:09:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.111093
- Title: Late-Stage Generalization Collapse in Grokking: Detecting anti-grokking with Weightwatcher
- Title(参考訳): グローキングにおける遅延一般化崩壊:ウエイトウォッチによる反グローキングの検出
- Authors: Hari K Prakash, Charles H Martin,
- Abstract要約: ニューラルネットワークにおけるemphMemorizationは、正確な運用定義が欠如しており、しばしばグラッキングレジームから推測される。
我々は、このトレーニング体制において、未報告の第3段階である、エンファンティ・グロッキング(emphanti-grokking)、すなわち、一般化の後期崩壊を識別する。
- 参考スコア(独自算出の注目度): 1.6615337656760856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: \emph{Memorization} in neural networks lacks a precise operational definition and is often inferred from the grokking regime, where training accuracy saturates while test accuracy remains very low. We identify a previously unreported third phase of grokking in this training regime: \emph{anti-grokking}, a late-stage collapse of generalization. We revisit two canonical grokking setups: a 3-layer MLP trained on a subset of MNIST and a transformer trained on modular addition, but extended training far beyond standard. In both cases, after models transition from pre-grokking to successful generalization, test accuracy collapses back to chance while training accuracy remains perfect, indicating a distinct post-generalization failure mode. To diagnose anti-grokking, we use the open-source \texttt{WeightWatcher} tool based on HTSR/SETOL theory. The primary signal is the emergence of \emph{Correlation Traps}: anomalously large eigenvalues beyond the Marchenko--Pastur bulk in the empirical spectral density of shuffled weight matrices, which are predicted to impair generalization. As a secondary signal, anti-grokking corresponds to the average HTSR layer quality metric $α$ deviating from $2.0$. Neither metric requires access to the test or training data. We compare these signals to alternative grokking diagnostic, including $\ell_2$ norms, Activation Sparsity, Absolute Weight Entropy, and Local Circuit Complexity. These track pre-grokking and grokking but fail to identify anti-grokking. Finally, we show that Correlation Traps can induce catastrophic forgetting and/or prototype memorization, and observe similar pathologies in large-scale LLMs, like OSS GPT 20/120B.
- Abstract(参考訳): ニューラルネットワークにおける \emph{Memorization} は、正確な運用定義が欠如しており、テスト精度が極めて低いまま、トレーニング精度が飽和するグラッキングレジームからしばしば推測される。
このトレーニング体制では、未報告のグルーキングの第3段階である 'emph{anti-grokking}, a late-stage collapse of generalization" が特定される。
MNISTのサブセットでトレーニングされた3層MLPと、モジュール追加でトレーニングされたトランスフォーマーの2つの標準グルーキング設定を再検討するが、トレーニングは標準を超えている。
どちらの場合も、モデルがプレグロキングから成功の一般化へと移行した後、テストの精度は、トレーニングの精度が完璧である間、偶然に崩壊し、個別の一般化後の障害モードが示される。
我々は,HTSR/SETOL理論に基づくオープンソースの「texttt{WeightWatcher}」ツールを用いて,抗グローキングの診断を行う。
第一の信号は、シャッフルされた重量行列の実験的スペクトル密度において、マルチェンコ-パストゥルバルクを超える不均一に大きな固有値である 'emph{Correlation Traps} の出現である。
二次的な信号として、アンチ・グロキングは平均的なHTSR層の品質基準である$α$と$2.0$と一致する。
メトリクスも、テストデータやトレーニングデータへのアクセスも必要ありません。
これらの信号は、$\ell_2$ norms、Activation Sparsity、Absolute Weight Entropy、Local Circuit Complexityなどの代替グルーキング診断と比較する。
これらのトラックは、プリ・グロッキングとグラッキングをトラックするが、アンチ・グロキングの特定には失敗した。
最後に,相関トラップは破滅的記憶やプロトタイプ記憶を誘導し,OSS GPT 20/120B のような大規模 LLM で同様の現象を観察できることを示す。
関連論文リスト
- Revisiting Weighted Strategy for Non-stationary Parametric Bandits and MDPs [56.246783503873225]
本稿では,非定常パラメトリックバンディットの重み付け戦略を再考する。
本稿では,ウィンドウ/リスタートベースアルゴリズムと同様に,より単純な重みに基づくアルゴリズムを提案する。
我々のフレームワークは、他のパラメトリックバンディットの後悔の限界を改善するのに使える。
論文 参考訳(メタデータ) (2026-01-03T04:50:21Z) - Phase-space entropy at acquisition reflects downstream learnability [54.4100065023873]
楽器分解位相空間に基づく取得レベルスカラー$S_mathcal B$を提案する。
本稿では, (S_mathcal B) が周期サンプリングの位相空間コヒーレンスを正確に同定できることを理論的に示す。
$|S_mathcal B|$は一貫してサンプリングジオメトリをランク付けし、トレーニングなしで下流での再構築/認識の困難を予測します。
論文 参考訳(メタデータ) (2025-12-22T10:03:51Z) - Adapt in the Wild: Test-Time Entropy Minimization with Sharpness and Feature Regularization [85.50560211492898]
テスト時適応(TTA)は、テストデータが分散シフトが混在している場合、モデルの性能を改善または損なう可能性がある。
これはしばしば、既存のTTAメソッドが現実世界にデプロイされるのを防ぐ重要な障害である。
両面からTTAを安定化させるため,SARと呼ばれる鋭く信頼性の高いエントロピー最小化手法を提案する。
論文 参考訳(メタデータ) (2025-09-05T10:03:00Z) - Grokking and Generalization Collapse: Insights from \texttt{HTSR} theory [4.371245698184159]
MNISTの1kサンプルサブセットをトレーニングした3層構造を用いて,ニューラルネットワーク(NN)のグルーキング現象について検討した。
我々は、訓練の非常に遅くに起こる新しい第3段階(エンファンティ・グロッキング)を発見し、よく知られたエンファンティ・グロキングフェーズとは異なる。
論文 参考訳(メタデータ) (2025-06-04T20:34:37Z) - Two failure modes of deep transformers and how to avoid them: a unified theory of signal propagation at initialisation [8.973965016201822]
ニューラルネットワークの適切な初期化を見つけることは、スムーズなトレーニングと優れたパフォーマンスを保証するために不可欠である。
トランスフォーマーでは、間違った初期化は、ランク崩壊、すべてのトークンが同様の表現に崩壊するランク崩壊、エントロピー崩壊、高度に集中した注意スコアが不安定になる2つの失敗モードの1つにつながる可能性がある。
ここでは、自己アテンション、層正規化、スキップ接続、勾配を有する深層変圧器による信号伝搬の解析理論を提案する。
論文 参考訳(メタデータ) (2025-05-30T08:18:23Z) - Beyond Progress Measures: Theoretical Insights into the Mechanism of Grokking [50.465604300990904]
グロキング(Grokking)とは、オーバーフィッティングの拡張後のテスト精度の急激な改善を指す。
本研究では、素数演算のタスクにおいて、Transformerの基盤となるグルーキング機構について検討する。
論文 参考訳(メタデータ) (2025-04-04T04:42:38Z) - Regularized Linear Regression for Binary Classification [20.710343135282116]
正規化線形回帰は、トレーニングセットがノイズラベルを持つ二項分類問題に対して有望なアプローチである。
十分な正則化強度に対して、最適重みは反対符号の2つの値の周りに集中していることを示す。
多くの場合、各重みの1ビットに対する「圧縮」が性能の損失を極めて少なくする。
論文 参考訳(メタデータ) (2023-11-03T23:18:21Z) - Industrial Anomaly Detection and Localization Using Weakly-Supervised Residual Transformers [44.344548601242444]
Weakly-supervised RESidual Transformer (WeakREST) という新しいフレームワークを導入し,高い異常検出精度を実現する。
画素単位の異常局所化タスクをブロック単位の分類問題に再構成する。
弱いラベルと残差に基づく表現との相互作用を処理できるResMixMatchアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-06-06T08:19:30Z) - Simple and Effective Prevention of Mode Collapse in Deep One-Class
Classification [93.2334223970488]
深部SVDDにおける超球崩壊を防止するための2つの正則化器を提案する。
第1の正則化器は、標準のクロスエントロピー損失によるランダムノイズの注入に基づいている。
第2の正規化器は、小さすぎるとミニバッチ分散をペナライズする。
論文 参考訳(メタデータ) (2020-01-24T03:44:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。