論文の概要: Optimizer-Induced Low-Dimensional Drift and Transverse Dynamics in Transformer Training
- arxiv url: http://arxiv.org/abs/2602.23696v2
- Date: Mon, 02 Mar 2026 06:00:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 15:39:04.020052
- Title: Optimizer-Induced Low-Dimensional Drift and Transverse Dynamics in Transformer Training
- Title(参考訳): 変圧器訓練におけるオプティマイザ誘起低次元ドリフトと横ダイナミクス
- Authors: Yongzhong Xu,
- Abstract要約: 我々はAdamWの下でトランスフォーマートレーニングを分析し、60-80%の長距離変位を捉えた支配的な低次元ドリフト方向(バックボーン)を特定する。
パーバッチ勾配はバックボーンとほぼノイズ・フロアのアライメントを示すが、勾配積分された更新はそれと強く一致しており、構造が瞬間幾何学ではなく蓄積されたダイナミクスから現れることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We analyze cumulative parameter trajectories of transformer training under AdamW and identify a dominant low-dimensional drift direction ("backbone") that captures 60--80% of long-horizon displacement from initialization. This direction is highly stable over rolling training windows yet reorients gradually across phases, particularly following objective reweighting. Per-batch gradients exhibit near-noise-floor alignment with the backbone, whereas optimizer-integrated updates align strongly with it, indicating that the structure emerges from accumulated optimizer dynamics rather than instantaneous gradient geometry. Replacing AdamW with SGD-family optimizers eliminates this structure, and reducing $β_2$ smoothly degrades backbone dominance and reheating recoverability. Reheating experiments show that transverse probe modes can be transiently re-excited without substantially altering accumulated backbone drift. These results provide a trajectory-level characterization of optimizer-induced geometric structure in transformer training and shift attention from instantaneous gradient properties to cumulative update dynamics.
- Abstract(参考訳): 我々はAdamWの下での変圧器訓練の累積パラメータ軌跡を解析し、初期化から60-80%の長軸変位を捕捉する支配的な低次元ドリフト方向(バックボーン)を同定する。
この方向は、ローリングトレーニングウィンドウよりも非常に安定しているが、特に客観的な再重み付けの後、段階的に順応する。
バッチ当たりの勾配はバックボーンとほぼノイズ・フロアの整合を示すが、オプティマイザ統合された更新はそれと強く一致しており、構造が即時勾配の幾何学ではなく、蓄積されたオプティマイザダイナミクスから現れることを示している。
SGDオプティマイザでAdamWをリプレースすることで、この構造を排除し、β_2$の削減により、バックボーンの優位性と回復性はスムーズに低下する。
再加熱実験により、逆プローブモードは、蓄積したバックボーンのドリフトを実質的に変化させることなく、過渡的に再活性化できることが示されている。
これらの結果から, 変圧器訓練におけるオプティマイザ誘起幾何構造の評価と, 瞬時勾配特性から累積更新ダイナミクスへ注目を移すことができた。
関連論文リスト
- Low-Dimensional Execution Manifolds in Transformer Learning Dynamics: Evidence from Modular Arithmetic Tasks [0.0]
本稿では, 数値計算を慎重に制御し, 変圧器モデルにおける学習力学の構造について検討する。
その結果,トランスフォーマー学習を理解するための統一的な幾何学的枠組みが示唆された。
論文 参考訳(メタデータ) (2026-02-11T03:57:46Z) - Spectral Gradient Descent Mitigates Anisotropy-Driven Misalignment: A Case Study in Phase Retrieval [13.218607858857295]
スペクトル勾配法は、スケールを捨てながら方向情報を保存することによって勾配の更新を変更する。
非線形位相探索モデルの動的解析により,これらの利得のメカニズムを解明する。
論文 参考訳(メタデータ) (2026-01-30T07:12:58Z) - A Constrained Optimization Perspective of Unrolled Transformers [77.12297732942095]
我々は、最適化降下アルゴリズムのように振る舞う変圧器の訓練のための制約付き最適化フレームワークを導入する。
拘束型変圧器は摂動の強靭性を実現し,より高い分布分布一般化を維持する。
論文 参考訳(メタデータ) (2026-01-24T02:12:39Z) - Transient learning dynamics drive escape from sharp valleys in Stochastic Gradient Descent [8.338308750427682]
勾配降下(SGD)は深層学習の中心であるが、より平坦でより一般化可能な解が好まれる起源はいまだ不明である。
解選択を規定する非平衡機構を同定する。
SGDノイズは,平らな解を好む効果的なポテンシャルにランドスケープを想起させることを示す。
論文 参考訳(メタデータ) (2026-01-16T03:03:45Z) - Predictable Gradient Manifolds in Deep Learning: Temporal Path-Length and Intrinsic Rank as a Complexity Regime [0.0]
経験的に、訓練軌道に沿って、しばしば時間的に予測可能であり、低次元の部分空間内で進化する。
我々は、予測可能な次元勾配の測定可能なフレームワークを通して、この観測を定式化する。
本稿では,適応勾配,ランク認識追跡,および実トレーニング実行の計測可能な特性に基づく予測に基づく設計について紹介する。
論文 参考訳(メタデータ) (2026-01-07T11:23:55Z) - Generative Model Inversion Through the Lens of the Manifold Hypothesis [98.37040155914595]
モデル反転攻撃(MIA)は、訓練されたモデルからクラス表現型サンプルを再構成することを目的としている。
最近の生成的MIAは、生成的敵ネットワークを使用して、反転過程を導く画像の事前学習を行う。
論文 参考訳(メタデータ) (2025-09-24T14:39:25Z) - GeoAda: Efficiently Finetune Geometric Diffusion Models with Equivariant Adapters [61.51810815162003]
制御された生成タスクに対してフレキシブルかつパラメータ効率の良い微調整を可能にするSE(3)-equivariant Adapter framework(GeoAda)を提案する。
GeoAdaは、過剰適合と破滅的な忘れを緩和しながら、モデルの幾何的一貫性を保っている。
我々は、フレーム制御、グローバル制御、サブグラフ制御、広範囲のアプリケーションドメインを含む多様な幾何学的制御タイプにまたがるGeoAdaの適用性を実証する。
論文 参考訳(メタデータ) (2025-07-02T18:44:03Z) - Hindsight-Guided Momentum (HGM) Optimizer: An Approach to Adaptive Learning Rate [0.0]
直近のアップデートに基づいて学習率を適応的にスケールする一階最適化アルゴリズムであるHindsight-Guided Momentumを導入する。
HGMは、コヒーレントな方向と矛盾する方向の学習速度を加速する後向きのメカニズムによってこの問題に対処する。
論文 参考訳(メタデータ) (2025-06-22T08:02:19Z) - FreeSplat++: Generalizable 3D Gaussian Splatting for Efficient Indoor Scene Reconstruction [50.534213038479926]
FreeSplat++は大規模な屋内全シーン再構築の代替手法である。
深度調整による微調整により,再現精度が大幅に向上し,トレーニング時間も大幅に短縮された。
論文 参考訳(メタデータ) (2025-03-29T06:22:08Z) - Accelerated Training through Iterative Gradient Propagation Along the Residual Path [46.577761606415805]
ハイウェイバックプロパゲーションは、バックプロパゲーションを近似する並列化可能な反復アルゴリズムである。
ResNetやTransformerから、リカレントニューラルネットワークまで、さまざまな共通アーキテクチャセットに適応可能である。
論文 参考訳(メタデータ) (2025-01-28T17:14:42Z) - Compressibility Analysis for the differentiable shift-variant Filtered Backprojection Model [3.529949176140719]
本稿では、微分可能なシフト変動型FBPモデルを圧縮し、最適化するための新しいアプローチを提案する。
本研究では, 冗長重量層パラメータをトレーニング可能な固有ベクトル行列, 圧縮重み, 平均ベクトルに分解する手法を開発した。
論文 参考訳(メタデータ) (2025-01-20T16:44:37Z) - Hallmarks of Optimization Trajectories in Neural Networks: Directional Exploration and Redundancy [75.15685966213832]
最適化トラジェクトリのリッチな方向構造をポイントワイズパラメータで解析する。
トレーニング中のスカラーバッチノルムパラメータは,ネットワーク全体のトレーニング性能と一致していることを示す。
論文 参考訳(メタデータ) (2024-03-12T07:32:47Z) - 2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
多次元状態空間モデルの表現的変動を利用する。
本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文 参考訳(メタデータ) (2023-06-11T09:41:37Z) - Learning High-Precision Bounding Box for Rotated Object Detection via
Kullback-Leibler Divergence [100.6913091147422]
既存の回転物体検出器は、主に水平検出パラダイムから受け継がれている。
本稿では,回転回帰損失の設計を帰納パラダイムから導出手法に変更することを目的としている。
論文 参考訳(メタデータ) (2021-06-03T14:29:19Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。