論文の概要: First-Passage Prediction of Grokking Delay: ACalibrated Law under AdamW with Causal Validation
- arxiv url: http://arxiv.org/abs/2605.18845v1
- Date: Wed, 13 May 2026 06:33:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.663299
- Title: First-Passage Prediction of Grokking Delay: ACalibrated Law under AdamW with Causal Validation
- Title(参考訳): グローキング遅延の第一相予測:AdamW法と因果検証による校正法
- Authors: Truong Xuan Khanh, Truong Quynh Hoa, Luu Duc Trung, Phan Thanh Duc,
- Abstract要約: 閉形式法 T_grok - T_mem = (1 / 2 kappa_LL eta) log(V_mem / V_star) ここで、V_t =theta_t||2 は標準二乗パラメータ、V_star はアーキテクチャ依存しきい値、kappa_LL はクリーンSGD 収縮率 2 eta に対するAdamW 補正を吸収する。
単一ハイパーランゲージセル上でのキャリブレーション(kappa_LL, V_star)は,MAPE 17.7%を41で達成し,26回のホールドアウト動作におけるグルーキング遅延を予測する
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We give the first quantitative prediction of grokking delay under AdamW. Treating the delay as a first-passage time, we derive a closed-form law T_grok - T_mem = (1 / 2 kappa_LL eta lambda) log(V_mem / V_star), where V_t = ||theta_t||^2 is the squared parameter norm, V_star is an architecture-dependent threshold, and kappa_LL absorbs the AdamW correction to the clean-SGD contraction rate 2 eta lambda. Calibrating (kappa_LL, V_star) on a single hyperparameter cell predicts grokking delays on 26 held-out runs with MAPE 17.7% over a 41x delay range; the law generalises to MLPs (MAPE 18.0%, N=34) and degrades to 23.3% on cross-task extension (N=46, 43.5x range), with a structured residual in which V_star / V_mem stays comparatively stable within architecture (CV about 14% on the 1L transformer). First-passage of V_t is necessary but not sufficient. A quantile-margin theorem establishes that positive delay requires both norm separation V_mem > V_post and angular reachability of a threshold alpha_star = arcsin(C / V_T_mem^(1/2)), where C is computable from the empirical NTK feature map and the validation-margin quantile. Calibrating C on modulus p=89 predicts alpha_star = 47.2 degrees at p=97 (observed 47.8 degrees, error 1.3%) as a prior cross-cell prediction. Causal interventions that freeze the norm or remove weight decay at memorisation eliminate grokking (0/6 vs. 3/3 baseline), trapping the angular displacement near 12 degrees. kappa_LL is empirically measured per architecture rather than derived from (beta_1, beta_2, epsilon); within-architecture CV stays at most 15% across four architectures, but values differ by about 2x between architectural variants beyond depth alone. Empirical scope is algorithmic tasks (modular arithmetic, sparse parity) under AdamW; whether the law transfers to natural-language scale models is open.
- Abstract(参考訳): 本稿では,AdamWの下でのグルーキング遅延の定量的予測を行う。
ここで、V_t = ||theta_t||^2は正方形パラメータノルム、V_starはアーキテクチャ依存しきい値、kappa_LLはAdamW補正をクリーンSGD収縮率2 eta lambdaに吸収する。
1つのハイパーパラメーターセル上でのキャリブレーション(Kappa_LL, V_star)は、MLP(MAPE 18.0%, N=34)に一般化し、クロスタスク拡張(N=46, 43.5x)で23.3%まで低下し、V_star/V_memがアーキテクチャ内で比較的安定な構造的残差(CVは1Lトランスフォーマーで約14%)で、26回のホールアウトランのグラッキング遅延を予測している。
V_tの第一通過は必要だが十分ではない。
量子化マージン定理は、標準分離 V_mem > V_post としきい値 α_star = arcsin(C / V_T_mem^(1/2)) の角到達性の両方を必要とすることを証明している。
係数 p=89 上の C のキャリブレーションは、p=97 において α_star = 47.2 度(47.8 度、誤差 1.3%)を事前の細胞間予測として予測する。
暗記時に標準を凍結したり、重量減衰を除去する因果的介入は、グラッキング(0/6 vs. 3/3ベースライン)を排除し、角変位を12度近くトラップする。
kappa_LLは、アーキテクチャごとに(beta_1, beta_2, epsilon)ではなく、経験的に測定されている。
経験的スコープはAdamWの下でのアルゴリズム的タスク(モジュラー算術、スパースパリティ)である。
関連論文リスト
- Entropy Across the Bridge: Conditional-Marginal Discretization for Flow and Schrödinger Samplers [68.9946633641494]
フローマッチングとシュルディンガーブリッジは確率を定義するが、その推論格子は通常一点拡散から受け継がれる。
終端条件付き橋梁形状を境界流の進化から分離し, 橋梁を識別する条件付きエントロピーレートを導出する。
EDM/CIFAR-10では、エントロピックな時間分散は5段階のFID(186.3 pm 4.0対200.5 pm 2.9対cosineの238.0 pm 5.3)が最適である。
論文 参考訳(メタデータ) (2026-05-15T16:11:10Z) - Measuring Maximum Activations in Open Large Language Models [60.3514350516308]
集中度, MoE, 視覚言語, 中間訓練, 命令調整型変異にまたがる8つのオープンファミリーから27個のチェックポイントで, グローバルおよび階層的に最大値を測定した。
最大アクティベーションサイズは、単純なサイズの副産物ではなく、ファミリー、アーキテクチャ、トレーニングステージに結びついているモデル特性である、と結論付けます。
論文 参考訳(メタデータ) (2026-05-15T03:31:51Z) - The Extrapolation Cliff in On-Policy Distillation of Near-Deterministic Structured Outputs [52.709361620508595]
ListOPDは、パラメータの5分の1で8B-SFTベースラインで、学生をドメイン内に持ち込む。
Amazon Fashionでは、3つの事前登録テスト — 細粒度崖間隔テスト、小さなクリップのクロス予測 — がロックされた予測ウィンドウ内に落下し、グリッド解像度以下のクローズドフォーム予測に一致する小さなクリップ値が設定されている。
論文 参考訳(メタデータ) (2026-05-09T06:48:00Z) - Kaczmarz Linear Attention [11.650692583508663]
リニアリカレントモデルはコンテキストを固定サイズの状態に圧縮し、情報を忘れ、書き、編集するルールを中心的な設計問題とする。
Gated DeltaNet (GDN) は、ゲート状態崩壊とデルタルール残差書き込みを結合し、学習可能な係数を用いて、忘れと更新の規模をバランスさせる。
状態形状,ゲート,リニアリカレンス,チャンクワイズ並列アルゴリズムを保存するGDNの1スカラー修正であるKaczmarz Linear (KLA)を提案する。
論文 参考訳(メタデータ) (2026-05-09T01:07:01Z) - Normalized Architectures are Natively 4-Bit [49.13186675123547]
重みと隠れ表現を単位超球面に制限するアーキテクチャであるnGPTは、本質的に低精度算術よりも堅牢である。
本手法は,最大3B/30Bパラメータの1.2B密度モデルとハイブリッド(Mamba-Transformer)MoEモデルの両方で検証する。
論文 参考訳(メタデータ) (2026-05-07T11:54:07Z) - WARP: A Benchmark for Primal-Dual Warm-Starting of Interior-Point Solvers [0.3058685580689604]
成長する仕事の体は、機械学習を使って原始的なウォームスタートのイテレーションを予測し、30-46%の減少を報告している。
これらの報告は不適切な評価基準に当てはまることを示す。
実験により、完全原始二重バリア状態 $(x*, *, z*, *)$ はIPOPTイテレーションを 23 から 3 に減少させる。
論文 参考訳(メタデータ) (2026-05-07T06:19:16Z) - Adaptive Consensus in LLM Ensembles via Sequential Evidence Accumulation: Automatic Budget Identification and Calibrated Commit Signals [0.0]
DASEは、ベンチマークをまたいで一般化するコミット型ルーティングパーティションを生成する。
インジェクション帯域ではなく、適応的な停止が正確さを駆動する。
インジェクションベースの手法は、逆Uの精度-vs-推論軌道を示す。
論文 参考訳(メタデータ) (2026-05-05T19:24:10Z) - The Verification Tax: Fundamental Limits of AI Auditing in the Rare-Error Regime [0.0]
最も引用されているキャリブレーションの結果は、CIFAR-100上での温度スケーリング後のECEの0.012は、統計的ノイズフロアより下である。
モデル誤差率のエプシロンによるキャリブレーション誤差を推定するミニマックスレートは Theta((Lepsilon/m)2/3) であり、推定器が打ち負かせない。
論文 参考訳(メタデータ) (2026-04-14T16:48:24Z) - BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models [56.504879072674015]
本稿では,ビットプレーンとスカラー係数による可変量子化グリッドを構成するビットプレーン分解量子化(BPDQ)を提案する。
BPDQは、1つのGTX 3090上でQwen2.5-72Bを83.85%のGSM8Kの精度で提供できる(ただし16ビットでは90.83%)。
論文 参考訳(メタデータ) (2026-02-04T02:54:37Z) - Temporal Zoom Networks: Distance Regression and Continuous Depth for Efficient Action Localization [6.908972852063454]
時間的行動の局所化は、正確な境界検出と計算効率の両方を必要とする。
我々は、境界距離回帰(BDR)と適応時間制限(ATR)という2つの補完的なイノベーションを通じてこの問題に対処する。
THUMOS14では、ActionFormer++ (55.7% mAP@0.7 at 235G) よりも36%少ないFLOPを用いて、151GのFLOPで56.5% mAP@0.7を達成する。
論文 参考訳(メタデータ) (2025-11-06T00:41:54Z) - Minimax Instrumental Variable Regression and $L_2$ Convergence
Guarantees without Identification or Closedness [71.42652863687117]
インストゥルメンタル変数(IV)回帰の非パラメトリック推定について検討した。
固定IV解に収束できる新しいペナル化ミニマックス推定器を提案する。
ラックス条件下での推定値に対して強い$L$誤差率を導出する。
論文 参考訳(メタデータ) (2023-02-10T18:08:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。