論文の概要: The Geometry of Multi-Task Grokking: Transverse Instability, Superposition, and Weight Decay Phase Structure
- arxiv url: http://arxiv.org/abs/2602.18523v1
- Date: Thu, 19 Feb 2026 22:39:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.133823
- Title: The Geometry of Multi-Task Grokking: Transverse Instability, Superposition, and Weight Decay Phase Structure
- Title(参考訳): マルチタスクグルーキングの幾何学:横不安定・重畳・重減衰相構造
- Authors: Yongzhong Xu,
- Abstract要約: 記憶から一般化への急激な移行について, ほぼゼロの訓練損失の後に検討した。
幾何解析をマルチタスクモジュラー演算に拡張する。
結果は、マルチタスクグルーキングがパラメータ空間内のコンパクトな重ね合わせ部分空間を構成する動的図形をサポートする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grokking -- the abrupt transition from memorization to generalization long after near-zero training loss -- has been studied mainly in single-task settings. We extend geometric analysis to multi-task modular arithmetic, training shared-trunk Transformers on dual-task (mod-add + mod-mul) and tri-task (mod-add + mod-mul + mod-sq) objectives across a systematic weight decay sweep. Five consistent phenomena emerge. (1) Staggered grokking order: multiplication generalizes first, followed by squaring, then addition, with consistent delays across seeds. (2) Universal integrability: optimization trajectories remain confined to an empirically invariant low-dimensional execution manifold; commutator defects orthogonal to this manifold reliably precede generalization. (3) Weight decay phase structure: grokking timescale, curvature depth, reconstruction threshold, and defect lead covary systematically with weight decay, revealing distinct dynamical regimes and a sharp no-decay failure mode. (4) Holographic incompressibility: final solutions occupy only 4--8 principal trajectory directions yet are distributed across full-rank weights and destroyed by minimal perturbations; SVD truncation, magnitude pruning, and uniform scaling all fail to preserve performance. (5) Transverse fragility and redundancy: removing less than 10% of orthogonal gradient components eliminates grokking, yet dual-task models exhibit partial recovery under extreme deletion, suggesting redundant center manifolds enabled by overparameterization. Together, these results support a dynamical picture in which multi-task grokking constructs a compact superposition subspace in parameter space, with weight decay acting as compression pressure and excess parameters supplying geometric redundancy in optimization pathways.
- Abstract(参考訳): 暗記から一般化への急激な移行は、ほぼゼロに近いトレーニング損失の後、主にシングルタスク環境で研究されている。
幾何解析をマルチタスクのモジュラー算術に拡張し、二重タスク(mod-add + mod-mul)とトリタスク(mod-add + mod-mul + mod-sq)の目的に対して共有トランク変換を学習し、体系的な重み減衰を回避した。
5つの一貫した現象が現れる。
1)重み付けグレーキング順序:まず一般化し、次にスクアリング、次に付加し、種子間で一貫した遅延が生じる。
2) 普遍可積分性: 最適化トラジェクトリは、経験的に不変な低次元実行多様体に限られる。
3) 軽量崩壊相構造: 時間スケール, 曲率深さ, 復元しきい値, 欠陥鉛共変体は, 重量崩壊と系統的に一致し, 異なる動的状態と急激な非破壊的故障モードが明らかとなった。
(4) ホログラフィックの非圧縮性: 最終解は4--8の主軌道方向のみを占有し, 最大摂動によって破壊される。
(5) 横方向の不安定性と冗長性: 直交勾配成分の10%未満を除去すると、グラッキングは排除されるが、双対タスクモデルでは、極端削除の下で部分的な回復が見られ、過度パラメータ化によって得られる冗長な中心多様体が示唆される。
これらの結果と合わせて、マルチタスクグルーキングがパラメータ空間のコンパクトな重ね合わせ部分空間を構成し、重量減衰が圧縮圧力として作用し、過度パラメータが最適化経路に幾何学的冗長性を供給する、動的図形を支持する。
関連論文リスト
- The Geometric Inductive Bias of Grokking: Bypassing Phase Transitions via Architectural Topology [0.0]
巡回加法(Zp)を訓練した変圧器のグルーキング-遅れ一般化に関する研究
標準変圧器における2つの独立した構造因子:表現の大きさとデータ依存型アテンションルーティングを同定する。
論文 参考訳(メタデータ) (2026-03-05T14:41:01Z) - Low-Dimensional and Transversely Curved Optimization Dynamics in Grokking [0.0]
暗記から小さなタスクでの一般化への移行が遅れたグロキングは、まだ理解されていない。
注意重みトラジェクトリのPCAは、トレーニングが低次元の実行部分空間内で主に進化することを明らかにする。
曲線は実行部分空間の方向に急激に成長するのに対して、軌道はそれに限定されていることが分かる。
論文 参考訳(メタデータ) (2026-02-18T03:57:56Z) - Low-Dimensional Execution Manifolds in Transformer Learning Dynamics: Evidence from Modular Arithmetic Tasks [0.0]
本稿では, 数値計算を慎重に制御し, 変圧器モデルにおける学習力学の構造について検討する。
その結果,トランスフォーマー学習を理解するための統一的な幾何学的枠組みが示唆された。
論文 参考訳(メタデータ) (2026-02-11T03:57:46Z) - Latent Object Permanence: Topological Phase Transitions, Free-Energy Principles, and Renormalization Group Flows in Deep Transformer Manifolds [0.5729426778193398]
幾何学的および統計的物理レンズを用いた深部変圧器言語モデルにおける多段階推論の出現について検討する。
我々は、フォワードパスを離散粗粒度写像として形式化し、安定な「概念盆地」の出現と、この再正規化のような力学の固定点を関連付ける。
結果として生じる低エントロピー状態は、スペクトルテール崩壊と、表現空間における過渡的で再利用可能なオブジェクトのような構造の形成によって特徴づけられる。
論文 参考訳(メタデータ) (2026-01-16T23:11:02Z) - Quantized Visual Geometry Grounded Transformer [67.15451442018258]
本稿では,VGGTの最初の量子化フレームワーク,すなわちQuantVGGTを提案する。
球状前アダマール回転と局所流路平滑化を統合したDual-Smoothed Fine-Grained Quantizationを導入する。
また、重層統計量を用いて外周をフィルタするノイズフィルタディバースサンプリングを設計する。
論文 参考訳(メタデータ) (2025-09-25T15:17:11Z) - Discrete-Guided Diffusion for Scalable and Safe Multi-Robot Motion Planning [56.240199425429445]
マルチロボット運動計画(MPMP)は、共有された連続作業空間で動作する複数のロボットのための軌道を生成する。
離散マルチエージェント探索(MAPF)法は,その拡張性から広く採用されているが,粗い離散化の軌道品質は高い。
本稿では、制約付き生成拡散モデルを用いた離散MAPF解法を導入することにより、2つのアプローチの限界に対処する。
論文 参考訳(メタデータ) (2025-08-27T17:59:36Z) - PMGS: Reconstruction of Projectile Motion across Large Spatiotemporal Spans via 3D Gaussian Splatting [9.314869696272297]
本研究では,3次元ガウス散乱によるプロジェクタイルの再構成に着目したPMGSを提案する。
本稿では,ニュートン力学を橋渡し,ポーズ推定を行う加速度制約を導入し,運動状態に基づいて学習率を適応的にスケジュールする動的シミュレート変形戦略を設計する。
論文 参考訳(メタデータ) (2025-08-04T17:49:37Z) - GeoAda: Efficiently Finetune Geometric Diffusion Models with Equivariant Adapters [61.51810815162003]
制御された生成タスクに対してフレキシブルかつパラメータ効率の良い微調整を可能にするSE(3)-equivariant Adapter framework(GeoAda)を提案する。
GeoAdaは、過剰適合と破滅的な忘れを緩和しながら、モデルの幾何的一貫性を保っている。
我々は、フレーム制御、グローバル制御、サブグラフ制御、広範囲のアプリケーションドメインを含む多様な幾何学的制御タイプにまたがるGeoAdaの適用性を実証する。
論文 参考訳(メタデータ) (2025-07-02T18:44:03Z) - Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。
以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。
我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。
この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文 参考訳(メタデータ) (2025-06-28T01:46:36Z) - Low-Rank Tensor Recovery via Variational Schatten-p Quasi-Norm and Jacobian Regularization [49.85875869048434]
暗黙的神経表現のためのニューラルネットワークによりパラメータ化されたCPベースの低ランクテンソル関数を提案する。
本研究では、スペーサーCP分解を実現するために、冗長なランク1成分に変分Schatten-p quasi-normを導入する。
滑らか性のために、ヤコビアンとハッチンソンのトレース推定器のスペクトルノルムに基づく正規化項を提案する。
論文 参考訳(メタデータ) (2025-06-27T11:23:10Z) - Weight Spectra Induced Efficient Model Adaptation [54.8615621415845]
微調整された大規模な基礎モデルは、計算コストを禁ずる。
微調整が最上位特異値を大きく増幅する一方で,残りはほとんど無傷であることを示す。
本稿では,トップ特異方向の学習可能な再スケーリングを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T05:03:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。