Fugu-MT 論文翻訳(概要): Optimizer-Induced Low-Dimensional Drift and Transverse Dynamics in Transformer Training

論文の概要: Optimizer-Induced Low-Dimensional Drift and Transverse Dynamics in Transformer Training

arxiv url: http://arxiv.org/abs/2602.23696v1
Date: Fri, 27 Feb 2026 05:53:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-02 19:48:24.267134
Title: Optimizer-Induced Low-Dimensional Drift and Transverse Dynamics in Transformer Training
Title（参考訳）: 変圧器訓練におけるオプティマイザ誘起低次元ドリフトと横ダイナミクス
Authors: Yongzhong Xu,
Abstract要約: 小型変圧器モデルにおける訓練軌道の幾何学について検討する。本研究は,1つの方向が,トレーニング開始直後の累積パラメータ運動のごく一部を捉えていることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study the geometry of training trajectories in small transformer models and find that parameter updates organize into a dominant drift direction with transverse residual dynamics. Using uncentered, row-normalized trajectory PCA, we show that a single direction captures a large fraction of cumulative parameter movement early in training, while remaining components encode oscillatory behavior in auxiliary probe performance. Instantaneous gradients exhibit little alignment with this dominant direction, indicating that it arises from accumulated optimizer updates rather than per-batch gradient structure. Comparing AdamW with SGD variants at matched loss levels reveals substantial differences in trajectory geometry: AdamW develops multi-dimensional drift structure, whereas SGD-family optimizers produce nearly colinear parameter evolution and weaker probe dynamics. Reheating selectively perturbs transverse components with minimal effect on the dominant drift coordinate. These findings suggest that optimizer choice shapes the effective dimensionality and structure of learning trajectories beyond what is apparent from loss values alone.
Abstract（参考訳）: 小型変圧器モデルにおけるトレーニング軌跡の幾何について検討し,パラメータ更新が横方向の残留力学で支配的なドリフト方向に整理されることを示した。本研究は,非中心,行正規化軌道PCAを用いて,単方向がトレーニング開始直後の累積パラメータ運動のごく一部を捕捉し,残りの成分が補助プローブ性能の振動挙動を符号化していることを示す。瞬時勾配はこの支配的な方向とほとんど一致せず、これはバッチごとの勾配構造ではなく、蓄積したオプティマイザ更新から生じることを示している。 AdamWは多次元ドリフト構造を発達させ、SGD型オプティマイザはほぼコリニアパラメータの進化と弱いプローブダイナミクスを生み出している。支配的ドリフト座標に最小限の影響を与える選択的摂動成分の再加熱これらの結果は,学習軌跡の有効次元と構造を,損失値のみから明らかな範囲を超えて,最適選択が形作ることを示唆している。

関連論文リスト

Low-Dimensional Execution Manifolds in Transformer Learning Dynamics: Evidence from Modular Arithmetic Tasks [0.0]
本稿では, 数値計算を慎重に制御し, 変圧器モデルにおける学習力学の構造について検討する。その結果,トランスフォーマー学習を理解するための統一的な幾何学的枠組みが示唆された。
論文参考訳（メタデータ） (2026-02-11T03:57:46Z)
Spectral Gradient Descent Mitigates Anisotropy-Driven Misalignment: A Case Study in Phase Retrieval [13.218607858857295]
スペクトル勾配法は、スケールを捨てながら方向情報を保存することによって勾配の更新を変更する。非線形位相探索モデルの動的解析により,これらの利得のメカニズムを解明する。
論文参考訳（メタデータ） (2026-01-30T07:12:58Z)
A Constrained Optimization Perspective of Unrolled Transformers [77.12297732942095]
我々は、最適化降下アルゴリズムのように振る舞う変圧器の訓練のための制約付き最適化フレームワークを導入する。拘束型変圧器は摂動の強靭性を実現し,より高い分布分布一般化を維持する。
論文参考訳（メタデータ） (2026-01-24T02:12:39Z)
Transient learning dynamics drive escape from sharp valleys in Stochastic Gradient Descent [8.338308750427682]
勾配降下(SGD)は深層学習の中心であるが、より平坦でより一般化可能な解が好まれる起源はいまだ不明である。解選択を規定する非平衡機構を同定する。 SGDノイズは,平らな解を好む効果的なポテンシャルにランドスケープを想起させることを示す。
論文参考訳（メタデータ） (2026-01-16T03:03:45Z)
Predictable Gradient Manifolds in Deep Learning: Temporal Path-Length and Intrinsic Rank as a Complexity Regime [0.0]
経験的に、訓練軌道に沿って、しばしば時間的に予測可能であり、低次元の部分空間内で進化する。我々は、予測可能な次元勾配の測定可能なフレームワークを通して、この観測を定式化する。本稿では,適応勾配,ランク認識追跡,および実トレーニング実行の計測可能な特性に基づく予測に基づく設計について紹介する。
論文参考訳（メタデータ） (2026-01-07T11:23:55Z)
Generative Model Inversion Through the Lens of the Manifold Hypothesis [98.37040155914595]
モデル反転攻撃(MIA)は、訓練されたモデルからクラス表現型サンプルを再構成することを目的としている。最近の生成的MIAは、生成的敵ネットワークを使用して、反転過程を導く画像の事前学習を行う。
論文参考訳（メタデータ） (2025-09-24T14:39:25Z)
GeoAda: Efficiently Finetune Geometric Diffusion Models with Equivariant Adapters [61.51810815162003]
制御された生成タスクに対してフレキシブルかつパラメータ効率の良い微調整を可能にするSE(3)-equivariant Adapter framework(GeoAda)を提案する。 GeoAdaは、過剰適合と破滅的な忘れを緩和しながら、モデルの幾何的一貫性を保っている。我々は、フレーム制御、グローバル制御、サブグラフ制御、広範囲のアプリケーションドメインを含む多様な幾何学的制御タイプにまたがるGeoAdaの適用性を実証する。
論文参考訳（メタデータ） (2025-07-02T18:44:03Z)
Hindsight-Guided Momentum (HGM) Optimizer: An Approach to Adaptive Learning Rate [0.0]
直近のアップデートに基づいて学習率を適応的にスケールする一階最適化アルゴリズムであるHindsight-Guided Momentumを導入する。 HGMは、コヒーレントな方向と矛盾する方向の学習速度を加速する後向きのメカニズムによってこの問題に対処する。
論文参考訳（メタデータ） (2025-06-22T08:02:19Z)
FreeSplat++: Generalizable 3D Gaussian Splatting for Efficient Indoor Scene Reconstruction [50.534213038479926]
FreeSplat++は大規模な屋内全シーン再構築の代替手法である。深度調整による微調整により,再現精度が大幅に向上し,トレーニング時間も大幅に短縮された。
論文参考訳（メタデータ） (2025-03-29T06:22:08Z)
Accelerated Training through Iterative Gradient Propagation Along the Residual Path [46.577761606415805]
ハイウェイバックプロパゲーションは、バックプロパゲーションを近似する並列化可能な反復アルゴリズムである。 ResNetやTransformerから、リカレントニューラルネットワークまで、さまざまな共通アーキテクチャセットに適応可能である。
論文参考訳（メタデータ） (2025-01-28T17:14:42Z)
Compressibility Analysis for the differentiable shift-variant Filtered Backprojection Model [3.529949176140719]
本稿では、微分可能なシフト変動型FBPモデルを圧縮し、最適化するための新しいアプローチを提案する。本研究では, 冗長重量層パラメータをトレーニング可能な固有ベクトル行列, 圧縮重み, 平均ベクトルに分解する手法を開発した。
論文参考訳（メタデータ） (2025-01-20T16:44:37Z)
Hallmarks of Optimization Trajectories in Neural Networks: Directional Exploration and Redundancy [75.15685966213832]
最適化トラジェクトリのリッチな方向構造をポイントワイズパラメータで解析する。トレーニング中のスカラーバッチノルムパラメータは,ネットワーク全体のトレーニング性能と一致していることを示す。
論文参考訳（メタデータ） (2024-03-12T07:32:47Z)
2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。多次元状態空間モデルの表現的変動を利用する。本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文参考訳（メタデータ） (2023-06-11T09:41:37Z)
Learning High-Precision Bounding Box for Rotated Object Detection via Kullback-Leibler Divergence [100.6913091147422]
既存の回転物体検出器は、主に水平検出パラダイムから受け継がれている。本稿では,回転回帰損失の設計を帰納パラダイムから導出手法に変更することを目的としている。
論文参考訳（メタデータ） (2021-06-03T14:29:19Z)
Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。 AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2020-10-21T14:49:00Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。