論文の概要: ILDR: Geometric Early Detection of Grokking
- arxiv url: http://arxiv.org/abs/2604.20923v1
- Date: Wed, 22 Apr 2026 06:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.096022
- Title: ILDR: Geometric Early Detection of Grokking
- Title(参考訳): ILDR:Grokkingの幾何学的早期検出
- Authors: Shreel Golwala,
- Abstract要約: Grokking氏は、ニューラルネットワークが検証精度が向上する前に完璧なトレーニング精度を達成する、遅延一般化現象を説明している。
Intra-class Distance Ratio (ILDR, Inter/Intra-class Distance Ratio)を提案する。
ILDRは、グルーキング遷移が検証精度に現れる前に、ベースラインの2.5倍の閾値を上昇し、交差する早期検出信号を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Grokking describes a delayed generalization phenomenon in which a neural network achieves perfect training accuracy long before validation accuracy improves, followed by an abrupt transition to strong generalization. Existing detection signals are indirect: weight norm reflects parameter-space regularization and consistently lags the transition, while GrokFast's slow gradient EMA, used without gradient amplification, is unstable across seeds with standard deviation exceeding mean lead time. We propose the Inter/Intra-class Distance Ratio (ILDR), a geometric metric computed on second-to-last layer representations as the ratio of inter-class centroid separation to intra-class scatter. ILDR provides an early detection signal: it rises and crosses a threshold at 2.5 times its baseline before the grokking transition appears in validation accuracy, indicating early geometric reorganization in representation space. Grounded in Fisher's linear discriminant criterion, ILDR requires no eigendecomposition and runs in O(|C|^2 + N). It is evaluated exclusively on held-out data, making it robust to memorization effects. Across modular arithmetic and permutation group composition (S5), ILDR leads the grokking transition by 9 to 73 percent of the training budget, with lead time increasing with task algebraic complexity. Over eight random seeds, ILDR leads by 950 +/- 250 steps with a coefficient of variation of 26 percent, and post-grokking variance drops by 1696 times, consistent with a sharp phase transition in representation space. Using ILDR as an early stopping trigger reduces training by 18.6 percent on average. Optimizer interventions triggered at the ILDR threshold demonstrate bidirectional control over the transition, suggesting ILDR tracks representational conditions underlying generalization rather than a downstream correlate.
- Abstract(参考訳): Grokkingは、ニューラルネットワークが検証精度が向上するずっと前に完璧なトレーニング精度を達成し、続いて急激な一般化への移行を行う遅延一般化現象を記述している。
既存の検出信号は間接的である: ウェイトノルムはパラメータ空間の正規化を反映し、遷移を一貫して遅延させるが、GrokFastの緩やかな勾配EMAは勾配増幅なしで使われ、標準偏差が平均鉛時間を超える種子間で不安定である。
Intra-class Distance Ratio (ILDR, Inter/Intra-class Distance Ratio)を提案する。
ILDRは初期検出信号を提供する: グルーキング遷移が検証精度に現れる前に、ベースラインの2.5倍の閾値で上昇し、交差し、表現空間における初期の幾何学的再構成を示す。
フィッシャーの線形判別基準に基づき、ILDRは固有分解を必要とせず、O(|C|^2 + N) で走る。
ホールドアウトデータのみに評価され、記憶効果に頑健である。
モジュラー演算と置換群合成(S5)全体において、ILDRは学習予算の9~73%のグルーキング遷移を導く。
8種以上のランダム種子では、ILDRは26%の変動係数を持つ950+/-250のステップをリードし、1696倍の時間後分散は、表現空間の鋭い相転移と一致している。
ILDRを早期停止トリガーとして使用すると、平均18.6%のトレーニングが減少する。
ILDR閾値で引き起こされる最適化介入は、遷移を双方向に制御することを示し、ILDRは下流相関ではなく一般化に基づく表現条件を追跡することを示唆している。
関連論文リスト
- K-GMRF: Kinetic Gauss-Markov Random Field for First-Principles Covariance Tracking on Lie Groups [8.489406212619164]
共分散追跡のためのオンライン学習自由フレームワークK-GMRFを提案する。
本手法は, 構造保存型シンプレクティックインテグレータにより伝搬される潜在角速度を駆動するトルクとして観測を解釈する。
理論的には、この2階の力学が一定回転下でゼロ定常誤差を達成することを証明している。
論文 参考訳(メタデータ) (2026-03-20T03:16:36Z) - Early-Warning Signals of Grokking via Loss-Landscape Geometry [0.0]
SCAN合成一般化とDyck-1深さ予測の2つのシーケンスラーニングベンチマークについて検討した。
タスクと幅広い学習率の双方において、通勤者欠陥は一般化される前に大きく上昇する。
これらの結果から, コンバータの欠陥は, コンバータの遅延一般化のための, 頑健でアーキテクチャに依存しない, 因果的に早期警戒信号であることがわかった。
論文 参考訳(メタデータ) (2026-02-19T00:14:36Z) - Unifying Sign and Magnitude for Optimizing Deep Vision Networks via ThermoLion [0.0]
現在のパラダイムは、情報チャネルドリフトパラメータに静的な妥協を課している。
我々は「低次元」探索モデルと「低次元」動的アライメントフレームワークを導入する。
論文 参考訳(メタデータ) (2025-12-01T17:04:17Z) - EDIT: Early Diffusion Inference Termination for dLLMs Based on Dynamics of Training Gradients [6.736735746633275]
拡散に基づく大規模言語モデル (dLLMs) は反復的妄想を通じてトークン生成を洗練させるが、全てのステップが完了する前に答えは安定することが多い。
本稿では,トレーニング時推論に対する十分な推論安定性が検出された場合に,適応的にデノイングを停止する推論時基準であるEDITを提案する。
論文 参考訳(メタデータ) (2025-11-29T23:47:47Z) - Decentralized Stochastic Proximal Gradient Descent with Variance
Reduction over Time-varying Networks [30.231314171218994]
分散学習において、ノードのネットワークは、通常、その局所的な目的の有限サムである全体的な目的関数を最小化するために協力する。
そこで本研究では,分散縮小手法を利用して分散学習を高速化する新しいアルゴリズムDPSVRGを提案する。
論文 参考訳(メタデータ) (2021-12-20T08:23:36Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm [71.13558000599839]
第一次アルゴリズムを用いて,厳密な凸と滑らかな非制約最適化問題の解法について検討する。
我々は,過去の勾配を平均化し,実装が容易な小説「Recursive One-Over-T SGD」を考案した。
有限サンプル, 漸近感覚, 感覚の両面において, 最先端の性能を同時に達成できることを実証する。
論文 参考訳(メタデータ) (2020-08-28T14:46:56Z) - When Does Preconditioning Help or Hurt Generalization? [74.25170084614098]
本稿では,第1次および第2次手法のテキスト単純バイアスが一般化特性の比較にどのように影響するかを示す。
本稿では、バイアス分散トレードオフを管理するためのいくつかのアプローチと、GDとNGDを補間する可能性について論じる。
論文 参考訳(メタデータ) (2020-06-18T17:57:26Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。