論文の概要: On the Optimization and Generalization of Two-layer Transformers with Sign Gradient Descent
- arxiv url: http://arxiv.org/abs/2410.04870v1
- Date: Mon, 7 Oct 2024 09:36:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 01:27:55.651261
- Title: On the Optimization and Generalization of Two-layer Transformers with Sign Gradient Descent
- Title(参考訳): 符号勾配の緩やかな2層変圧器の最適化と一般化について
- Authors: Bingrui Li, Wei Huang, Andi Han, Zhanpeng Zhou, Taiji Suzuki, Jun Zhu, Jianfei Chen,
- Abstract要約: Sign Gradient Descent (SignGD) はアダムの効果的なサロゲートである。
我々はSignGDが雑音の多いデータセット上で2層トランスを最適化する方法について検討する。
SignGDの一般化が不十分なのはデータノイズによるものではなく、SignGDとAdamの両方が現実世界のタスクに高品質なデータを必要とすることを示唆している。
- 参考スコア(独自算出の注目度): 51.50999191584981
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Adam optimizer is widely used for transformer optimization in practice, which makes understanding the underlying optimization mechanisms an important problem. However, due to the Adam's complexity, theoretical analysis of how it optimizes transformers remains a challenging task. Fortunately, Sign Gradient Descent (SignGD) serves as an effective surrogate for Adam. Despite its simplicity, theoretical understanding of how SignGD optimizes transformers still lags behind. In this work, we study how SignGD optimizes a two-layer transformer -- consisting of a softmax attention layer with trainable query-key parameterization followed by a linear layer -- on a linearly separable noisy dataset. We identify four stages in the training dynamics, each exhibiting intriguing behaviors. Based on the training dynamics, we prove the fast convergence but poor generalization of the learned transformer on the noisy dataset. We also show that Adam behaves similarly to SignGD in terms of both optimization and generalization in this setting. Additionally, we find that the poor generalization of SignGD is not solely due to data noise, suggesting that both SignGD and Adam requires high-quality data for real-world tasks. Finally, experiments on synthetic and real-world datasets empirically support our theoretical results.
- Abstract(参考訳): アダム・オプティマイザはトランスフォーマーの最適化に広く使われており、基礎となる最適化機構を理解することが重要な問題となっている。
しかし、アダムの複雑さのため、トランスフォーマーの最適化に関する理論的分析は依然として難しい課題である。
幸いなことに、Sign Gradient Descent (SignGD) はアダムの効果的なサロゲートとして機能している。
その単純さにもかかわらず、SignGDがトランスフォーマーを最適化する方法に関する理論的理解はまだ遅れている。
本研究では、線形分離可能なノイズデータセットを用いて、SignGDが2層トランスフォーマー(訓練可能なクエリキーパラメータ化と線形層を含むソフトマックスアテンション層)をどのように最適化するかを検討する。
トレーニングダイナミクスの4つの段階を特定し,それぞれが興味深い行動を示す。
学習力学に基づいて,ノイズデータセット上で学習したトランスフォーマーの高速収束と低次一般化を証明した。
また、Adamはこの設定における最適化と一般化の両方の観点から、SignGDと同じような振る舞いを示す。
さらに,SignGDの一般化が不十分なのはデータノイズによるものではなく,SignGDとAdamの両方が現実世界のタスクに高品質なデータを必要とすることを示唆している。
最後に、合成および実世界のデータセットに関する実験は、我々の理論的結果を実証的に支援する。
関連論文リスト
- Unraveling the Gradient Descent Dynamics of Transformers [37.096572564254515]
グラディエント・Descent (GD) は、特に入力埋め込み次元が大きい場合、大域的最適解を達成するためにトランスフォーマーモデルを訓練することができる。
ソフトマックスとガウスアテンションカーネルを用いて単一トランスフォーマー層の損失状況を分析する。
論文 参考訳(メタデータ) (2024-11-12T04:33:56Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Linear Transformers are Versatile In-Context Learners [19.988368693379087]
線形変圧器の各層が負の線形回帰問題に対する重みベクトルを維持していることを示す。
また、異なるレベルのノイズでトレーニングデータが破損する難易度シナリオにおける線形変圧器の使用についても検討する。
ここでは,線形変圧器が複雑かつ高効率な最適化アルゴリズムを発見することを実証する。
論文 参考訳(メタデータ) (2024-02-21T23:45:57Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。