論文の概要: Detecting overfitting in Neural Networks during long-horizon grokking using Random Matrix Theory
- arxiv url: http://arxiv.org/abs/2605.12394v2
- Date: Thu, 14 May 2026 04:36:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 15:19:49.899956
- Title: Detecting overfitting in Neural Networks during long-horizon grokking using Random Matrix Theory
- Title(参考訳): ランダム行列理論を用いた長期グルーキング中のニューラルネットワークのオーバーフィッティング検出
- Authors: Hari K. Prakash, Charles H Martin,
- Abstract要約: 本稿では,列車やテストデータにアクセスせずに,深層学習モデルの過度適合を検知するランダム行列理論を提案する。
ロングホライゾングルーキングの「アンチ・グロキング」フェーズと呼ばれるオーバーフィッティングの開始時、相関トラップは数と規模で成長し成長する。
以上の結果から, 抗農薬は, 高い列車精度と試験精度の低下をともなう追加グルーキングフェーズであり, 相関トラップによる前グルーキングとは構造的に異なることが示唆された。
- 参考スコア(独自算出の注目度): 1.6615337656760856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training Neural Networks (NNs) without overfitting is difficult; detecting that overfitting is difficult as well. We present a novel Random Matrix Theory method that detects the onset of overfitting in deep learning models without access to train or test data. For each model layer, we randomize each weight matrix element-wise, $\mathbf{W} \to \mathbf{W}^{\mathrm{rand}}$, fit the randomized empirical spectral distribution with a Marchenko-Pastur distribution, and identify large outliers that violate self-averaging. We call these outliers Correlation Traps. During the onset of overfitting, which we call the "anti-grokking" phase in long-horizon grokking, Correlation Traps form and grow in number and scale as test accuracy decreases while train accuracy remains high. Traps may be benign or may harm generalization; we provide an empirical approach to distinguish between them by passing random data through the trained model and evaluating the JS divergence of output logits. Our findings show that anti-grokking is an additional grokking phase with high train accuracy and decreasing test accuracy, structurally distinct from pre-grokking through its Correlation Traps. More broadly, we find that some foundation-scale LLMs exhibit the same Correlation Traps, indicating potentially harmful overfitting.
- Abstract(参考訳): オーバーフィットのないニューラルネットワーク(NN)のトレーニングは困難であり,オーバーフィットの検出も困難である。
本稿では,列車やテストデータにアクセスせずに,深層学習モデルの過度適合を検知するランダム行列理論を提案する。
各モデル層に対して、各重み行列要素について、$\mathbf{W} \to \mathbf{W}^{\mathrm{rand}}$をランダム化し、ランダム化された経験スペクトル分布とマルテンコ・パストゥル分布を適合させ、自己回避に反する大きな外れ値を特定する。
これらの外れ値を相関トラップと呼ぶ。
ロングホライゾングルーキングの「アンチ・グルーキング」フェーズと呼ばれるオーバーフィッティングの開始時に、列車の精度を高く保ちながら、テスト精度が低下するにつれて、相関トラップは数と規模で形成・成長する。
我々は、訓練されたモデルにランダムデータを渡し、出力ロジットのJSばらつきを評価することによって、それらを区別するための実証的なアプローチを提供する。
以上の結果から, 抗農薬は, 高い列車精度と試験精度の低下をともなう追加グルーキング相であり, 相関トラップによる前グルーキングとは構造的に異なることが示唆された。
より広範に、いくつかの基礎的なスケールのLSMは同じ相関軌道を示し、潜在的に有害な過剰適合を示す。
関連論文リスト
- Late-Stage Generalization Collapse in Grokking: Detecting anti-grokking with Weightwatcher [1.6615337656760856]
ニューラルネットワークにおけるemphMemorizationは、正確な運用定義が欠如しており、しばしばグラッキングレジームから推測される。
我々は、このトレーニング体制において、未報告の第3段階である、エンファンティ・グロッキング(emphanti-grokking)、すなわち、一般化の後期崩壊を識別する。
論文 参考訳(メタデータ) (2026-02-02T22:09:14Z) - Risk and cross validation in ridge regression with correlated samples [72.59731158970894]
我々は,データポイントが任意の相関関係を持つ場合,リッジ回帰のイン・オブ・サンプルリスクのトレーニング例を提供する。
この設定では、一般化されたクロスバリデーション推定器(GCV)がサンプル外リスクを正確に予測できないことを示す。
さらに、テストポイントがトレーニングセットと非自明な相関を持つ場合、時系列予測でしばしば発生する設定にまで分析を拡張します。
論文 参考訳(メタデータ) (2024-08-08T17:27:29Z) - Distributionally Robust Skeleton Learning of Discrete Bayesian Networks [9.46389554092506]
我々は、潜在的に破損したデータから一般的な離散ベイズネットワークの正確なスケルトンを学習する問題を考察する。
本稿では,有界ワッサーシュタイン距離(KL)における分布群に対する最も有害なリスクを,経験的分布へのKL分散を最適化することを提案する。
本稿では,提案手法が標準正規化回帰手法と密接に関連していることを示す。
論文 参考訳(メタデータ) (2023-11-10T15:33:19Z) - Benign-Overfitting in Conditional Average Treatment Effect Prediction
with Linear Regression [14.493176427999028]
線形回帰モデルを用いて条件平均処理効果(CATE)の予測における良性過剰適合理論について検討した。
一方,IPW-learnerは確率スコアが分かっていればリスクをゼロに収束させるが,T-learnerはランダムな割り当て以外の一貫性を達成できないことを示す。
論文 参考訳(メタデータ) (2022-02-10T18:51:52Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Shaping Deep Feature Space towards Gaussian Mixture for Visual
Classification [74.48695037007306]
視覚分類のためのディープニューラルネットワークのためのガウス混合損失関数(GM)を提案する。
分類マージンと可能性正規化により、GM損失は高い分類性能と特徴分布の正確なモデリングの両方を促進する。
提案したモデルは、追加のトレーニング可能なパラメータを使わずに、簡単かつ効率的に実装できる。
論文 参考訳(メタデータ) (2020-11-18T03:32:27Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Uncertainty Estimation Using a Single Deep Deterministic Neural Network [66.26231423824089]
本稿では,1回のフォワードパスで,テスト時に分布データポイントの発見と拒否が可能な決定論的ディープモデルを訓練する手法を提案する。
我々は,新しい損失関数とセントロイド更新方式を用いて,これらをスケールトレーニングし,ソフトマックスモデルの精度に適合させる。
論文 参考訳(メタデータ) (2020-03-04T12:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。