論文の概要: Low-Dimensional Execution Manifolds in Transformer Learning Dynamics: Evidence from Modular Arithmetic Tasks
- arxiv url: http://arxiv.org/abs/2602.10496v1
- Date: Wed, 11 Feb 2026 03:57:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.451726
- Title: Low-Dimensional Execution Manifolds in Transformer Learning Dynamics: Evidence from Modular Arithmetic Tasks
- Title(参考訳): 変圧器学習ダイナミクスにおける低次元実行マニフォールド:モジュラー算術的課題からの証拠
- Authors: Yongzhong Xu,
- Abstract要約: 本稿では, 数値計算を慎重に制御し, 変圧器モデルにおける学習力学の構造について検討する。
その結果,トランスフォーマー学習を理解するための統一的な幾何学的枠組みが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the geometric structure of learning dynamics in overparameterized transformer models through carefully controlled modular arithmetic tasks. Our primary finding is that despite operating in high-dimensional parameter spaces ($d=128$), transformer training trajectories rapidly collapse onto low-dimensional execution manifolds of dimension $3$--$4$. This dimensional collapse is robust across random seeds and moderate task difficulties, though the orientation of the manifold in parameter space varies between runs. We demonstrate that this geometric structure underlies several empirically observed phenomena: (1) sharp attention concentration emerges as saturation along routing coordinates within the execution manifold, (2) stochastic gradient descent (SGD) exhibits approximately integrable dynamics when projected onto the execution subspace, with non-integrability confined to orthogonal staging directions, and (3) sparse autoencoders capture auxiliary routing structure but fail to isolate execution itself, which remains distributed across the low-dimensional manifold. Our results suggest a unifying geometric framework for understanding transformer learning, where the vast majority of parameters serve to absorb optimization interference while core computation occurs in a dramatically reduced subspace. These findings have implications for interpretability, training curriculum design, and understanding the role of overparameterization in neural network learning.
- Abstract(参考訳): 過パラメータ変換器モデルにおける学習力学の幾何学的構造について,慎重に制御されたモジュラー演算を用いて検討する。
第一の発見は、高次元パラメータ空間(d=128$)で運用されているにもかかわらず、変圧器の訓練軌道は、次元3$-4$の低次元実行多様体に急速に崩壊することである。
この次元崩壊はランダムシードと適度なタスク困難に対して頑健であるが、パラメータ空間における多様体の向きはラン毎に異なる。
この幾何学的構造は,(1) 急激な注意集中は, 実行多様体内の経路座標に沿った飽和として出現し, (2) 確率勾配降下 (SGD) は, 実行部分空間に投影されたとき, ほぼ可積分のダイナミクスを示す。
この結果から,変圧器学習における一元的な幾何学的枠組みが示唆され,ほとんどのパラメータが最適化干渉の吸収に役立ち,コア計算は劇的に削減された部分空間で発生することが示唆された。
これらの知見は、解釈可能性、カリキュラム設計、ニューラルネットワーク学習における過度パラメータ化の役割の理解に影響を及ぼす。
関連論文リスト
- From Coefficients to Directions: Rethinking Model Merging with Directional Alignment [66.99062575537555]
パラメータと特徴空間の両面に一貫した方向構造を整列する,方向アライメント付きemphMerging(method)という統一幾何学的枠組みを導入する。
分析の結果、指向性アライメントは構造的コヒーレンスを改善し、ベンチマーク、モデルスケール、タスク構成にまたがる広範な実験により、我々のアプローチの有効性がさらに検証された。
論文 参考訳(メタデータ) (2025-11-29T08:40:58Z) - The Neural Differential Manifold: An Architecture with Explicit Geometric Structure [8.201374511929538]
本稿では,その基本設計に幾何学的構造を明示的に組み込んだニューラルネットワークアーキテクチャであるニューラル微分マニフォールド(NDM)を紹介する。
我々は、より効率的な最適化の可能性、継続学習の強化、科学的発見と制御可能な生成モデルへの応用など、このアプローチの理論的利点を分析する。
論文 参考訳(メタデータ) (2025-10-29T02:24:27Z) - Understanding Post-Training Structural Changes in Large Language Models [3.054513120350576]
後学習は大規模言語モデル(LLM)の振る舞いを根本的に変える
本研究は,指導チューニングと長鎖蒸留(Long-CoT)の2つの広く採用されているポストトレーニング手法に焦点をあてる。
論文 参考訳(メタデータ) (2025-09-22T15:03:36Z) - GeoAda: Efficiently Finetune Geometric Diffusion Models with Equivariant Adapters [61.51810815162003]
制御された生成タスクに対してフレキシブルかつパラメータ効率の良い微調整を可能にするSE(3)-equivariant Adapter framework(GeoAda)を提案する。
GeoAdaは、過剰適合と破滅的な忘れを緩和しながら、モデルの幾何的一貫性を保っている。
我々は、フレーム制御、グローバル制御、サブグラフ制御、広範囲のアプリケーションドメインを含む多様な幾何学的制御タイプにまたがるGeoAdaの適用性を実証する。
論文 参考訳(メタデータ) (2025-07-02T18:44:03Z) - Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。
以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。
我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。
この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文 参考訳(メタデータ) (2025-06-28T01:46:36Z) - Maintaining Structural Integrity in Parameter Spaces for Parameter Efficient Fine-tuning [78.39310274926535]
さまざまな下流タスクに事前訓練された基礎モデルを適応させることは、人工知能において一般的である。
これを軽減するために、事前訓練されたモデルの重みをより資源効率の良い方法で更新するために、いくつかの微調整技術が開発されている。
本稿では,多次元パラメータ空間用に設計された一般化されたパラメータ効率の微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:04:42Z) - 2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
多次元状態空間モデルの表現的変動を利用する。
本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文 参考訳(メタデータ) (2023-06-11T09:41:37Z) - Autoencoders for discovering manifold dimension and coordinates in data
from complex dynamical systems [0.0]
Autoencoder frameworkは暗黙の正則化と内部線形層と$L$正則化(重崩壊)を組み合わせる
このフレームワークは、状態空間モデリングや予測の応用のために自然に拡張できることを示す。
論文 参考訳(メタデータ) (2023-05-01T21:14:47Z) - Manifold Learning via Manifold Deflation [105.7418091051558]
次元削減法は、高次元データの可視化と解釈に有用な手段を提供する。
多くの一般的な手法は単純な2次元のマニフォールドでも劇的に失敗する。
本稿では,グローバルな構造を座標として組み込んだ,新しいインクリメンタルな空間推定器の埋め込み手法を提案する。
実験により,本アルゴリズムは実世界および合成データセットに新規で興味深い埋め込みを復元することを示した。
論文 参考訳(メタデータ) (2020-07-07T10:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。