論文の概要: Weight Decay Regimes in Grokking Transformers: Cheap Online Diagnostics
- arxiv url: http://arxiv.org/abs/2605.20441v1
- Date: Tue, 19 May 2026 19:48:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.350628
- Title: Weight Decay Regimes in Grokking Transformers: Cheap Online Diagnostics
- Title(参考訳): グローキングトランスフォーマーの体重減少率:オンライン診断
- Authors: Lucky Verma,
- Abstract要約: モジュラー演算で訓練された変換器は、記憶、一般化、崩壊の急激な遷移を示す。
重み劣化はこれらの状態に対するスカラーな経験的制御パラメータとして機能することを示す。
トレーニングのダイナミクスをトラックするオンライン診断,平均的注意頭コサイン類似性とエントロピー標準偏差を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers trained on modular arithmetic exhibit sharp transitions between memorization, generalization, and collapse. We show that weight decay acts as a scalar empirical control parameter for these regimes, and introduce two cheap online diagnostics, mean pairwise attention-head cosine similarity and entropy standard deviation, that track training dynamics from attention activations alone and complement loss-landscape diagnostics at lower compute cost. Across eleven experimental conditions and three model scales (0.82M to 85M parameters), the weight-decay axis separates memorization, developmental grokking, and collapse. A near-transition logistic fit localizes the memorization-to-developmental boundary at $λ_c=0.0158$ (95% CI [0.0109, 0.0200], N=210); a power-law fit gives an empirical exponent $ν=0.757$ (CI [0.725, 0.799]). Reference exponents $ν=1/2$ and 3D Ising $ν\approx 0.63$ lie outside this empirical CI under our four-bin grid, so we report $ν$ as empirical and defer universality-class identification to denser finite-size-scaling work. A horizon-matched multi-task replication (n=280, four modular operations) preserves the weight-decay control pattern; a paired attention-head re-initialization experiment at $λ=0.05$ changes Phase-2 amplitude (Cohen's $d=-1.190$, n=10, $p_t=4.5 \times 10^{-3}$), while matched weight-norm clipping does not. Three cross-architecture probes (4L MLP, 4L LSTM, and 4L Mamba; each n=70) replicate the weight-decay-controlled transition with architecture-specific $λ_c$ values. Main diagnostic claims are scoped to modular arithmetic in small transformer attention models; the non-attention experiments are scope probes, and architecture-wide, language-model, and universality-class claims are out of scope.
- Abstract(参考訳): モジュラー演算で訓練された変換器は、記憶、一般化、崩壊の急激な遷移を示す。
重み劣化はこれらの状態に対するスカラーな経験的制御パラメータとして機能し,2つの安価なオンライン診断,平均的注意頭コサイン類似度とエントロピー標準偏差を導入し,注意アクティベーションのみからトレーニングのダイナミクスを追跡し,低計算コストで損失景観診断を補完することを示した。
11つの実験条件と3つのモデルスケール(0.82Mから85Mパラメータ)にまたがって、重みとデカイ軸は記憶、発達、崩壊を分離する。
準遷移ロジスティックフィットは、記憶から開発までの境界を$λ_c=0.0158$ (95% CI [0.0109, 0.0200], N=210) に局所化し、パワーローフィットは経験的指数の$ν=0.757$ (CI [0.725, 0.799])を与える。
参照指数 $ν=1/2$ および 3D Ising $ν\approx 0.63$ は、我々の4ビン格子の下にある経験的 CI の外側にあるので、より高密度な有限スケールの作業に対する経験的および遅延的普遍性クラス同定として $ν$ を報告する。
水平整合型マルチタスクレプリケーション(n=280, 4つのモジュラー演算)は重み制御パターンを保ち、対の注意頭再初期化実験をλ=0.05$で行うと位相2振幅(コーエンの$d=-1.190$, n=10, $p_t=4.5 \times 10^{-3}$)が変化する。
3つのクロスアーキテクチャプローブ (4L MLP, 4L LSTM, 4L Mamba; 各n=70) は、アーキテクチャ固有の$λ_c$値で重み付き制御された遷移を再現する。
主な診断クレームは、小さなトランスフォーマーアテンションモデルにおけるモジュラー算術の範囲であり、非注意実験はスコーププローブであり、アーキテクチャ全体、言語モデル、普遍性クラスクレームはスコープ外である。
関連論文リスト
- Lying Is Just a Phase: The Hidden Alignment Transition in Language Model Scaling [0.0]
16家系の63塩基モデルにおける推論と真理の結合度を測定した。
我々は、家族依存の臨界スケール(N_c$)以下の損失曲線を目に見えない体制変化を発見し、その上、彼らは協力する。
論文 参考訳(メタデータ) (2026-05-13T03:14:09Z) - Wavelet Variance Equipartition as a Threshold for World-Model Quality and Quantum Kernel TN-Simulability [0.0]
我々はウェーブレットスケーリング指数$$を臨界診断として同定する。
振幅符号化された量子カーネルの古典的シミュラビリティのシャープな遷移境界として$=1/2$を確立する。
この分散は、厳密には$Var[X] = (d-2)$としてスケールする。
論文 参考訳(メタデータ) (2026-05-12T05:41:12Z) - What Do EEG Foundation Models Capture from Human Brain Signals? [64.48249643001402]
現代の脳波基礎モデルは、自己教師付き事前訓練を通じて生信号から直接学習する。
我々は3つのサブクエストに分解する: モデルが何を学習するか、モデルを何に使用するのか、そしてどのように説明できるのか。
3つの基礎モデル(CSBrain, CBraMod, LaBraM),5つの臨床タスク(MDD, Stress, ISRUC-Sleep, TUSL, Siena)と6ファミリー63機能レキシコンを含む。
論文 参考訳(メタデータ) (2026-05-12T01:57:53Z) - The Geometry of Forgetting: Temporal Knowledge Drift as an Independent Axis in LLM Representations [50.43168858368539]
大規模言語モデルは自信を持って時代遅れの回答を生成し、既存の方法では検出できない。
これは工学的な失敗ではなく構造的な失敗であり、時間的ドリフトは、幾何的に残留流の方向として、正確性と不確実性の両方に符号化される。
論文 参考訳(メタデータ) (2026-05-09T22:27:31Z) - When Self-Reference Fails to Close: Matrix-Level Dynamics in Large Language Models [0.0]
自己参照的ステートメントとメタ認知的プロンプトは、主要な崩壊関連メトリクスのパラドックス的自己参照よりも安定している。
我々は、NCTRが有限深度変圧器をこれらの問題に集中する力学系へ強制することを提案する。
論文 参考訳(メタデータ) (2026-04-13T23:23:02Z) - Spectral Edge Dynamics of Training Trajectories: Signal--Noise Geometry Across Scales [0.0]
コンヒーレントな方向のみにおいてトランスフォーマー訓練軌道が発展することを示す。
共同作業では、同じスペクトル幾何学がグラッキングの早期警戒信号を提供する。
論文 参考訳(メタデータ) (2026-03-14T04:46:05Z) - First-Principles Optical Descriptors and Hybrid Classical-Quantum Classification of Er-Doped CaF$_2$ [3.039491211255488]
本稿では、第一原理光ディスクリプタを用いて、ErドープCaF$からプリスタンスCaF$を識別するための古典量子機械学習フレームワークを提案する。
1系あたりのエネルギー分解点1,589点から、遷移エネルギー$E$、絶滅係数$$、吸収係数$$を含む物理的に解釈可能な記述子を抽出した。
論文 参考訳(メタデータ) (2026-01-31T05:43:59Z) - Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。
我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。
この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文 参考訳(メタデータ) (2025-10-17T02:58:35Z) - Tensor Decomposition Networks for Fast Machine Learning Interatomic Potential Computations [48.46721044282335]
テンソル分解ネットワーク(TDN)は、計算処理の劇的な高速化と競合する性能を実現する。
1億5500万のDFT計算スナップショットを含む分子緩和データセットPubChemQCRのTDNを評価した。
その結果,TDNは計算処理の劇的な高速化と競合する性能を示した。
論文 参考訳(メタデータ) (2025-07-01T18:46:27Z) - Minimum optical depth multiport interferometers for approximating arbitrary unitary operations and pure states [37.69303106863453]
我々は、マルチポート干渉計を用いて、純状態の準備とユニタリ操作を与えられた不忠実さで近似する問題に対処する。
数値計算により、任意の次元$d$の純粋な状態が不忠実で作成できることが示される。
論文 参考訳(メタデータ) (2020-02-04T15:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。