論文の概要: On the Convergence of Gradient Descent on Learning Transformers with Residual Connections
- arxiv url: http://arxiv.org/abs/2506.05249v1
- Date: Thu, 05 Jun 2025 17:10:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.83959
- Title: On the Convergence of Gradient Descent on Learning Transformers with Residual Connections
- Title(参考訳): 残差接続を有する学習用変圧器におけるグラディエントDescentの収束性について
- Authors: Zhen Qin, Jinxin Zhou, Zhihui Zhu,
- Abstract要約: 本研究では, 自己アテンション, フィードフォワードネットワーク, 残差接続を含む構造的に完全な単一層トランスの収束挙動を解析する。
残余接続はこの出力行列の不調和を改善するのに役立ち、これはソフトマックス演算によって課される低ランク構造から生じる問題である。
- 参考スコア(独自算出の注目度): 26.02176724426513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models have emerged as fundamental tools across various scientific and engineering disciplines, owing to their outstanding performance in diverse applications. Despite this empirical success, the theoretical foundations of Transformers remain relatively underdeveloped, particularly in understanding their training dynamics. Existing research predominantly examines isolated components--such as self-attention mechanisms and feedforward networks--without thoroughly investigating the interdependencies between these components, especially when residual connections are present. In this paper, we aim to bridge this gap by analyzing the convergence behavior of a structurally complete yet single-layer Transformer, comprising self-attention, a feedforward network, and residual connections. We demonstrate that, under appropriate initialization, gradient descent exhibits a linear convergence rate, where the convergence speed is determined by the minimum and maximum singular values of the output matrix from the attention layer. Moreover, our analysis reveals that residual connections serve to ameliorate the ill-conditioning of this output matrix, an issue stemming from the low-rank structure imposed by the softmax operation, thereby promoting enhanced optimization stability. We also extend our theoretical findings to a multi-layer Transformer architecture, confirming the linear convergence rate of gradient descent under suitable initialization. Empirical results corroborate our theoretical insights, illustrating the beneficial role of residual connections in promoting convergence stability.
- Abstract(参考訳): トランスフォーマーモデルは、様々な応用において卓越した性能のため、様々な科学・工学分野の基本的なツールとして登場した。
この経験的成功にもかかわらず、トランスフォーマーの理論的基礎は、特に訓練力学の理解において、比較的未発達のままである。
既存の研究では、孤立したコンポーネント(自己保持機構やフィードフォワードネットワークなど)について、特に残余接続が存在する場合に、これらのコンポーネント間の相互依存性を徹底的に調査している。
本稿では, 自己アテンション, フィードフォワードネットワーク, 残差接続を含む構造的に完全な単一層トランスの収束挙動を解析し, このギャップを埋めることを目的とする。
適切な初期化の下では、勾配降下は線形収束速度を示し、この収束速度は注目層からの出力行列の最小値と最大値によって決定される。
さらに,我々は,残差接続が,ソフトマックス演算による低ランク構造に起因する問題である出力行列の不調和を改善するのに役立つことを明らかにし,最適化安定性の向上を図った。
また, この理論結果を多層トランスフォーマーアーキテクチャに拡張し, 最適初期化条件下での勾配降下の線形収束率を確認した。
実験結果は我々の理論的洞察を裏付け、収束安定性の促進における残留接続の有益な役割を解明する。
関連論文リスト
- Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。
この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文 参考訳(メタデータ) (2024-11-04T15:54:32Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - Dynamical Mean-Field Theory of Self-Attention Neural Networks [0.0]
トランスフォーマーベースのモデルは、様々な領域で例外的な性能を示している。
動作方法や期待されるダイナミクスについてはほとんど分かっていない。
非平衡状態における非対称ホップフィールドネットワークの研究に手法を用いる。
論文 参考訳(メタデータ) (2024-06-11T13:29:34Z) - Connectivity Shapes Implicit Regularization in Matrix Factorization Models for Matrix Completion [2.8948274245812335]
行列完備化問題の解法として,行列分解の暗黙的正則化について検討する。
我々は、観測データの接続が暗黙のバイアスにおいて重要な役割を果たすことを経験的に発見する。
我々の研究は、行列分解モデルにおけるデータ接続、トレーニングダイナミクス、暗黙の正規化の間の複雑な相互作用を明らかにする。
論文 参考訳(メタデータ) (2024-05-22T15:12:14Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Efficient Bound of Lipschitz Constant for Convolutional Layers by Gram
Iteration [122.51142131506639]
循環行列理論を用いて畳み込み層のスペクトルノルムに対して、精密で高速で微分可能な上界を導入する。
提案手法は, 精度, 計算コスト, スケーラビリティの観点から, 他の最先端手法よりも優れていることを示す。
これは畳み込みニューラルネットワークのリプシッツ正則化に非常に効果的であり、並行アプローチに対する競合的な結果である。
論文 参考訳(メタデータ) (2023-05-25T15:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。