論文の概要: The Lifecycle of the Spectral Edge: From Gradient Learning to Weight-Decay Compression
- arxiv url: http://arxiv.org/abs/2604.07380v1
- Date: Wed, 08 Apr 2026 01:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.430168
- Title: The Lifecycle of the Spectral Edge: From Gradient Learning to Weight-Decay Compression
- Title(参考訳): スペクトルエッジのライフサイクル:グラディエントラーニングからウェイトデカイ圧縮へ
- Authors: Yongzhong Xu,
- Abstract要約: 2つのシーケンスタスクにおいて、スペクトルエッジをグラクキング中にその勾配と重み劣化成分に分解する。
急激な2相のライフサイクルを見出す: エッジをグルーキングする前に、エッジは普遍性駆動され、機能的にアクティブである; グルーキングでは勾配と重みが整列し、エッジは圧縮軸となる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We decompose the spectral edge -- the dominant direction of the Gram matrix of parameter updates -- into its gradient and weight-decay components during grokking in two sequence tasks (Dyck-1 and SCAN). We find a sharp two-phase lifecycle: before grokking the edge is gradient-driven and functionally active; at grokking, gradient and weight decay align, and the edge becomes a compression axis that is perturbation-flat yet ablation-critical (>4000x more impactful than random directions). Three universality classes emerge (functional, mixed, compression), predicted by the gap flow equation. Nonlinear probes show information is re-encoded, not lost (MLP $R^2=0.99$ where linear $R^2=0.86$), and removing weight decay post-grok reverses compression while preserving the algorithm.
- Abstract(参考訳): パラメータ更新のグラマー行列の主方向であるスペクトルエッジを、2つのシーケンスタスク(Dyck-1 と SCAN)におけるグラッキング中の勾配および重み劣化成分に分解する。
急激な2相のライフサイクルを見出す: エッジをグルーキングする前には、勾配駆動され、機能的にアクティブである; グルーキング、勾配、およびウェイト崩壊が整列し、エッジは摂動平らでアブレーションクリティカルな圧縮軸となる(>4000はランダム方向よりも影響が大きい)。
ギャップフロー方程式によって予測される3つの普遍クラス(機能的、混合的、圧縮)が出現する。
非線形プローブは情報が再符号化され、失われていない(MLP $R^2=0.99$、線形$R^2=0.86$)。
関連論文リスト
- Conservation Law Breaking at the Edge of Stability: A Spectral Theory of Non-Convex Neural Network Optimization [0.0]
非次元ネットワーク最適化において、勾配勾配勾配が確実に良い解となることを示す。
幅依存性の動的遷移によって分離された2つの規則を同定する。
全ての予測は23の実験で検証される。
論文 参考訳(メタデータ) (2026-04-08T10:41:24Z) - Robust Automatic Differentiation of Square-Root Kalman Filters via Gramian Differentials [3.542663650865005]
平方根カルマンフィルタは、Colesky-factor形式の状態共分散を数値安定性のために伝播する。
彼らの中心となる演算、mathbbRn × m$ の行列 $M の三角化は、実際にはQR分解によって計算される。
これはムーア-ペンローズ擬逆数に基づく列空間項と、M$の列空間の外の摂動に対するヌル空間補正である。
論文 参考訳(メタデータ) (2026-03-13T19:55:08Z) - Marginals Before Conditionals [0.15229257192293197]
ニューラルネットワークにおける条件学習を分離する最小限のタスクを構築する。
モデルはまず辺 P(A | B) を学習し、完全に対数 K のプラトーを生成する。
論文 参考訳(メタデータ) (2026-03-10T05:51:01Z) - Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。
我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。
この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文 参考訳(メタデータ) (2025-10-17T02:58:35Z) - Non-stationary Online Learning for Curved Losses: Improved Dynamic Regret via Mixability [65.99855403424979]
混合可能性の概念を活用することで、動的後悔を著しく改善できることを示す。
固定共有更新を持つ指数重み付け法は,混合損失に対して$mathcalO(d T2/3 P_T2/3 log T)$ dynamic regretを達成できることを示す。
論文 参考訳(メタデータ) (2025-06-12T12:00:08Z) - On the Saturation Effects of Spectral Algorithms in Large Dimensions [14.63552944833659]
本研究の主な焦点は,大規模なスペクトルアルゴリズムの飽和効果を大規模に検討することである。
飽和効果は, 原条件$s>tau$で, 固定次元設定では$s>2tau$で発生する。
論文 参考訳(メタデータ) (2025-03-01T14:21:38Z) - Extended Linear Regression: A Kalman Filter Approach for Minimizing Loss
via Area Under the Curve [0.0]
この研究は、損失を最小限に抑えるためにカルマンフィルタと曲線領域の解析を統合することで線形回帰モデルを強化する。
目的は、重み更新に勾配勾配勾配(SGD)を用いた最適線形回帰方程式を開発することである。
論文 参考訳(メタデータ) (2023-08-23T17:50:57Z) - Computationally Efficient Horizon-Free Reinforcement Learning for Linear
Mixture MDPs [111.75736569611159]
線形混合MDPのための計算効率のよい初めての地平線フリーアルゴリズムを提案する。
我々のアルゴリズムは、未知の遷移力学に対する重み付き最小二乗推定器に適応する。
これにより、$sigma_k2$'sが知られているときに、この設定で最もよく知られたアルゴリズムも改善される。
論文 参考訳(メタデータ) (2022-05-23T17:59:18Z) - Large Scale Private Learning via Low-rank Reparametrization [77.38947817228656]
本稿では、大規模ニューラルネットワークに微分プライベートSGDを適用する際の課題を解決するために、再パラメータ化方式を提案する。
BERTモデルにディファレンシャルプライバシを適用し、4つの下流タスクで平均精度が8,3.9%に達するのはこれが初めてである。
論文 参考訳(メタデータ) (2021-06-17T10:14:43Z) - Agnostic Learning of Halfspaces with Gradient Descent via Soft Margins [92.7662890047311]
勾配降下は、分類誤差$tilde O(mathsfOPT1/2) + varepsilon$ in $mathrmpoly(d,1/varepsilon)$ time and sample complexity.
論文 参考訳(メタデータ) (2020-10-01T16:48:33Z) - On Biased Compression for Distributed Learning [55.89300593805943]
バイアス圧縮機が単一ノードと分散設定の両方において線形収束率をもたらすことを初めて示す。
理論的保証と実用性能を期待できる新しいバイアス圧縮機を提案する。
論文 参考訳(メタデータ) (2020-02-27T19:52:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。