Fugu-MT 論文翻訳(概要): Transformers Learn Nonlinear Features In Context: Nonconvex Mean-field Dynamics on the Attention Landscape

論文の概要: Transformers Learn Nonlinear Features In Context: Nonconvex Mean-field Dynamics on the Attention Landscape

arxiv url: http://arxiv.org/abs/2402.01258v1
Date: Fri, 2 Feb 2024 09:29:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 16:19:34.525438
Title: Transformers Learn Nonlinear Features In Context: Nonconvex Mean-field Dynamics on the Attention Landscape
Title（参考訳）: 変圧器は文脈で非線形特徴を学習する:注意景観における非凸平均場ダイナミクス
Authors: Juno Kim and Taiji Suzuki
Abstract要約: Transformerアーキテクチャに基づく大規模言語モデルは、コンテキストで学習できる印象的な能力を示している。共通非線形表現や特徴写像は、文脈内学習の力を高めるために利用できることを示す。
参考スコア（独自算出の注目度）: 48.18626762645424
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models based on the Transformer architecture have demonstrated impressive capabilities to learn in context. However, existing theoretical studies on how this phenomenon arises are limited to the dynamics of a single layer of attention trained on linear regression tasks. In this paper, we study the optimization of a Transformer consisting of a fully connected layer followed by a linear attention layer. The MLP acts as a common nonlinear representation or feature map, greatly enhancing the power of in-context learning. We prove in the mean-field and two-timescale limit that the infinite-dimensional loss landscape for the distribution of parameters, while highly nonconvex, becomes quite benign. We also analyze the second-order stability of mean-field dynamics and show that Wasserstein gradient flow almost always avoids saddle points. Furthermore, we establish novel methods for obtaining concrete improvement rates both away from and near critical points. This represents the first saddle point analysis of mean-field dynamics in general and the techniques are of independent interest.
Abstract（参考訳）: Transformerアーキテクチャに基づいた大規模言語モデルは、コンテキストで学習できる印象的な能力を示している。しかし、この現象の発生に関する既存の理論的研究は、線形回帰タスクで訓練された単一の注意層の力学に限られている。本稿では,完全連結層と線形注意層からなる変圧器の最適化について検討する。 MLPは共通の非線形表現や特徴マップとして機能し、文脈内学習の能力を大幅に向上させる。平均場と2時間スケールの極限において、パラメータの分布に対する無限次元のロスランドスケープは非常に非凸であるが、かなり良質であることが証明される。また,平均場力学の2次安定性を解析し,ワッサーシュタイン勾配流が概ね鞍点を避けていることを示した。さらに,重要点と近点の両方から具体的な改善率を得るための新しい手法を確立する。これは平均場力学における最初のサドル点解析であり、その技術は独立した関心を持つ。

関連論文リスト

Exact Learning Dynamics of In-Context Learning in Linear Transformers and Its Application to Non-Linear Transformers [1.7034813545878589]
トランスフォーマーモデルは、顕著なインコンテキスト学習(ICL)を示す我々の研究は、ICLの正確な動的モデルを提供し、複雑なトランスフォーマートレーニングを解析するための理論的基盤ツールを提供する。
論文参考訳（メタデータ） (2025-04-17T13:05:33Z)
In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文参考訳（メタデータ） (2025-03-17T02:00:49Z)
PolypFlow: Reinforcing Polyp Segmentation with Flow-Driven Dynamics [25.69584903128262]
PolypFLowは、セグメンテーションの洗練に物理にインスパイアされた最適化力学を注入するフローマッチング拡張アーキテクチャである。我々はPolypFLowが様々な照明シナリオで一貫した性能を維持しながら最先端を実現していることを示す。
論文参考訳（メタデータ） (2025-02-26T10:48:33Z)
Stability properties of gradient flow dynamics for the symmetric low-rank matrix factorization problem [22.648448759446907]
多くの学習課題において,低ランク因子化がビルディングブロックとして機能することを示す。ダイナミクスの局所的な探索部分に関連する軌跡の形状に関する新たな知見を提供する。
論文参考訳（メタデータ） (2024-11-24T20:05:10Z)
Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis [97.54180451650122]
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
論文参考訳（メタデータ） (2024-10-12T17:50:58Z)
Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文参考訳（メタデータ） (2024-09-25T20:22:06Z)
In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文参考訳（メタデータ） (2023-10-08T17:55:33Z)
Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。 GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文参考訳（メタデータ） (2022-06-08T21:32:50Z)
Convex Analysis of the Mean Field Langevin Dynamics [49.66486092259375]
平均場ランゲヴィン力学の収束速度解析について述べる。ダイナミックスに付随する$p_q$により、凸最適化において古典的な結果と平行な収束理論を開発できる。
論文参考訳（メタデータ） (2022-01-25T17:13:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。