論文の概要: Transformers Learn Nonlinear Features In Context: Nonconvex Mean-field
Dynamics on the Attention Landscape
- arxiv url: http://arxiv.org/abs/2402.01258v1
- Date: Fri, 2 Feb 2024 09:29:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 16:19:34.525438
- Title: Transformers Learn Nonlinear Features In Context: Nonconvex Mean-field
Dynamics on the Attention Landscape
- Title(参考訳): 変圧器は文脈で非線形特徴を学習する:注意景観における非凸平均場ダイナミクス
- Authors: Juno Kim and Taiji Suzuki
- Abstract要約: Transformerアーキテクチャに基づく大規模言語モデルは、コンテキストで学習できる印象的な能力を示している。
共通非線形表現や特徴写像は、文脈内学習の力を高めるために利用できることを示す。
- 参考スコア(独自算出の注目度): 48.18626762645424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models based on the Transformer architecture have demonstrated
impressive capabilities to learn in context. However, existing theoretical
studies on how this phenomenon arises are limited to the dynamics of a single
layer of attention trained on linear regression tasks. In this paper, we study
the optimization of a Transformer consisting of a fully connected layer
followed by a linear attention layer. The MLP acts as a common nonlinear
representation or feature map, greatly enhancing the power of in-context
learning. We prove in the mean-field and two-timescale limit that the
infinite-dimensional loss landscape for the distribution of parameters, while
highly nonconvex, becomes quite benign. We also analyze the second-order
stability of mean-field dynamics and show that Wasserstein gradient flow almost
always avoids saddle points. Furthermore, we establish novel methods for
obtaining concrete improvement rates both away from and near critical points.
This represents the first saddle point analysis of mean-field dynamics in
general and the techniques are of independent interest.
- Abstract(参考訳): Transformerアーキテクチャに基づいた大規模言語モデルは、コンテキストで学習できる印象的な能力を示している。
しかし、この現象の発生に関する既存の理論的研究は、線形回帰タスクで訓練された単一の注意層の力学に限られている。
本稿では,完全連結層と線形注意層からなる変圧器の最適化について検討する。
MLPは共通の非線形表現や特徴マップとして機能し、文脈内学習の能力を大幅に向上させる。
平均場と2時間スケールの極限において、パラメータの分布に対する無限次元のロスランドスケープは非常に非凸であるが、かなり良質であることが証明される。
また,平均場力学の2次安定性を解析し,ワッサーシュタイン勾配流が概ね鞍点を避けていることを示した。
さらに,重要点と近点の両方から具体的な改善率を得るための新しい手法を確立する。
これは平均場力学における最初のサドル点解析であり、その技術は独立した関心を持つ。
関連論文リスト
- Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Training Dynamics of Multi-Head Softmax Attention for In-Context
Learning: Emergence, Convergence, and Optimality [59.2179429243182]
マルチタスク線形回帰の文脈内学習のためのマルチヘッドソフトマックスアテンションモデルを訓練するための勾配流のダイナミクスについて検討する。
我々は,勾配流のダイナミックス中に,興味深い「タスク割り当て」現象が現れることを証明した。
論文 参考訳(メタデータ) (2024-02-29T18:43:52Z) - Implicit Bias and Fast Convergence Rates for Self-attention [30.08303212679308]
トランスフォーマーのコアメカニズムであるセルフアテンションは、従来のニューラルネットワークと区別し、その優れたパフォーマンスを駆動する。
固定線形復号器をバイナリに固定した自己アテンション層をトレーニングする際の勾配降下(GD)の暗黙バイアスについて検討した。
W_t$ から $W_mm$ に対する最初の有限時間収束率と、注意写像のスペーサー化率を提供する。
論文 参考訳(メタデータ) (2024-02-08T15:15:09Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Convex Analysis of the Mean Field Langevin Dynamics [49.66486092259375]
平均場ランゲヴィン力学の収束速度解析について述べる。
ダイナミックスに付随する$p_q$により、凸最適化において古典的な結果と平行な収束理論を開発できる。
論文 参考訳(メタデータ) (2022-01-25T17:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。