論文の概要: Low-Rank Decay for Grokking in Scale-Invariant Transformers: A Spectral-Geometric View
- arxiv url: http://arxiv.org/abs/2606.04405v1
- Date: Wed, 03 Jun 2026 03:33:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.515092
- Title: Low-Rank Decay for Grokking in Scale-Invariant Transformers: A Spectral-Geometric View
- Title(参考訳): スケール不変変圧器におけるグローキングの低ランク減衰:スペクトル幾何学的視点
- Authors: Mingyu Li,
- Abstract要約: 我々は, スケール不変条件においても, 段階的な$UVtop$が接点成分を保持する核ノルム型スペクトル正規化器であるemphLow-Rank Decay (LRD)を提案する。
LRDは、クエリ/キー行列の高速な有効ランク崩壊を誘導し、遅延一般化(グロキング)が起こるデータ・フレクション境界を拡張する。
- 参考スコア(独自算出の注目度): 5.455820955578752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Transformer architectures frequently employ normalization mechanisms such as RMSNorm and Query-Key Normalization, making parts of the model approximately scale-invariant with respect to weight magnitudes. In this regime, standard Frobenius-norm weight decay acts purely along the radial direction of the weight space and cannot directly simplify the function represented by the normalized layer. We study grokking in small algorithmic tasks through this lens and propose \emph{Low-Rank Decay} (LRD), a nuclear-norm-like spectral regularizer whose subgradient -- the polar factor $UV^\top$ -- retains a tangential component even in the scale-invariant setting. This distinction has a concrete dynamical consequence: after the model memorizes the training set and task gradients vanish, L2 decay can no longer reshape the weight spectrum, whereas LRD continues to compress singular values in an $\ell_1$-like fashion. On modular arithmetic tasks, we find that LRD induces rapid effective-rank collapse in Query/Key matrices and expands the data-fraction boundary at which delayed generalization (grokking) occurs. We further provide a spectral-geometric interpretation through the ``needle-to-fan'' expansion of the nuclear-norm subdifferential near low-rank strata.
- Abstract(参考訳): 現代のトランスフォーマーアーキテクチャでは RMSNorm や Query-Key Normalization のような正規化機構がよく使われており、モデルの一部が重量級数に関してほぼ不変である。
この状態において、標準フロベニウス-ノルム重みの崩壊は、重み空間の半径方向に沿って純粋に作用し、正規化層で表される関数を直接単純化することはできない。
我々は、このレンズを用いて、小さなアルゴリズムタスクにおけるグルーキングを研究し、スケール不変条件下においても、偏極係数 $UV^\top$ が接点成分を保持する核ノルムのようなスペクトル正規化器である 'emph{Low-Rank Decay} (LRD) を提案する。
モデルがトレーニングセットを記憶し、タスク勾配が消滅した後、L2崩壊はもはやウェイトスペクトルを再構成することはできないが、RDは$\ell_1$-likeの方法で特異値を圧縮し続けている。
モジュラー演算タスクにおいて、RDはクエリ/キー行列の高速な有効ランク崩壊を誘導し、遅延一般化(グロキング)が起こるデータ・フレクション境界を拡張する。
さらに、低ランク層近傍の核-ノルム部分微分の 'needle-to-fan'' 拡張によるスペクトル幾何学的解釈を提供する。
関連論文リスト
- Gradient Clipping Beyond Vector Norms: A Spectral Approach for Matrix-Valued Parameters [48.3175117923623]
ほとんどの勾配クリッピング規則は、全てのパラメータを重ベクトルとして扱い、現代のベクトルの行列構造を無視する。
実験により、データのアウトリーチは、少数のリード特異値のみを増幅することを示した。
この現象を動機として,特異値で安定化するクリッピングを提案する。
論文 参考訳(メタデータ) (2026-05-12T09:24:59Z) - Structured Multidimensional Representation Learning for Large Language Models [0.0]
トランスフォーマーアーキテクチャは、幅広いパターン認識と自然言語処理タスクで最先端のパフォーマンスを達成する。
三次元テンソルのL-積に基づく埋め込み空間の構造的スペクトル分解を導入する。
提案するL-Transformerは,少ない埋め込みで動作するp並列変換器とスペクトル的に等価であることを示す。
論文 参考訳(メタデータ) (2026-03-05T22:34:45Z) - Latent Object Permanence: Topological Phase Transitions, Free-Energy Principles, and Renormalization Group Flows in Deep Transformer Manifolds [0.5729426778193398]
幾何学的および統計的物理レンズを用いた深部変圧器言語モデルにおける多段階推論の出現について検討する。
我々は、フォワードパスを離散粗粒度写像として形式化し、安定な「概念盆地」の出現と、この再正規化のような力学の固定点を関連付ける。
結果として生じる低エントロピー状態は、スペクトルテール崩壊と、表現空間における過渡的で再利用可能なオブジェクトのような構造の形成によって特徴づけられる。
論文 参考訳(メタデータ) (2026-01-16T23:11:02Z) - Lazy Diffusion: Mitigating spectral collapse in generative diffusion-based stable autoregressive emulation of turbulent flows [0.0]
標準DDPMは基本的な赤外崩壊を引き起こすことを示す。
拡散時間内に微細構造を深く保存するパワー・ロー・スケジュールを導入する。
これらの手法はレイノルズ数2Dコルモゴロフ乱流とメキシコ湾の1/12円の海面再解析に応用される。
論文 参考訳(メタデータ) (2025-12-10T12:05:32Z) - Low-Rank Tensor Recovery via Variational Schatten-p Quasi-Norm and Jacobian Regularization [49.85875869048434]
暗黙的神経表現のためのニューラルネットワークによりパラメータ化されたCPベースの低ランクテンソル関数を提案する。
本研究では、スペーサーCP分解を実現するために、冗長なランク1成分に変分Schatten-p quasi-normを導入する。
滑らか性のために、ヤコビアンとハッチンソンのトレース推定器のスペクトルノルムに基づく正規化項を提案する。
論文 参考訳(メタデータ) (2025-06-27T11:23:10Z) - From Low Rank Gradient Subspace Stabilization to Low-Rank Weights: Observations, Theories, and Applications [85.17672240603011]
大規模言語モデルにおける重み行列の非一様低ランク特性について検討する。
WeLore(Weight Low-Rank Projection)は、重み圧縮とメモリ効率の微調整を一体化したものである。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - Explicit Regularization in Overparametrized Models via Noise Injection [14.492434617004932]
簡単な有限次元モデルに対して、小さな摂動が明示的な正則化をもたらすことを示す。
実験により,小摂動がバニラ勾配降下訓練よりも一般化性能の向上につながることが示された。
論文 参考訳(メタデータ) (2022-06-09T17:00:23Z) - Hyperspectral Image Denoising Using Non-convex Local Low-rank and Sparse
Separation with Spatial-Spectral Total Variation Regularization [49.55649406434796]
本研究では,HSI復調のためのロバストな主成分分析のための新しい非特異なアプローチを提案する。
我々は、ランクとスパースコンポーネントの両方に対する正確な近似を開発する。
シミュレーションと実HSIの両方の実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-01-08T11:48:46Z) - Learning High-Precision Bounding Box for Rotated Object Detection via
Kullback-Leibler Divergence [100.6913091147422]
既存の回転物体検出器は、主に水平検出パラダイムから受け継がれている。
本稿では,回転回帰損失の設計を帰納パラダイムから導出手法に変更することを目的としている。
論文 参考訳(メタデータ) (2021-06-03T14:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。