論文の概要: In-Context Convergence of Transformers
- arxiv url: http://arxiv.org/abs/2310.05249v1
- Date: Sun, 8 Oct 2023 17:55:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 09:03:54.486952
- Title: In-Context Convergence of Transformers
- Title(参考訳): 変圧器の文脈収束
- Authors: Yu Huang, Yuan Cheng, Yingbin Liang
- Abstract要約: 勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
- 参考スコア(独自算出の注目度): 63.04956160537308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have recently revolutionized many domains in modern machine
learning and one salient discovery is their remarkable in-context learning
capability, where models can solve an unseen task by utilizing task-specific
prompts without further parameters fine-tuning. This also inspired recent
theoretical studies aiming to understand the in-context learning mechanism of
transformers, which however focused only on linear transformers. In this work,
we take the first step toward studying the learning dynamics of a one-layer
transformer with softmax attention trained via gradient descent in order to
in-context learn linear function classes. We consider a structured data model,
where each token is randomly sampled from a set of feature vectors in either
balanced or imbalanced fashion. For data with balanced features, we establish
the finite-time convergence guarantee with near-zero prediction error by
navigating our analysis over two phases of the training dynamics of the
attention map. More notably, for data with imbalanced features, we show that
the learning dynamics take a stage-wise convergence process, where the
transformer first converges to a near-zero prediction error for the query
tokens of dominant features, and then converges later to a near-zero prediction
error for the query tokens of under-represented features, respectively via one
and four training phases. Our proof features new techniques for analyzing the
competing strengths of two types of attention weights, the change of which
determines different training phases.
- Abstract(参考訳): トランスフォーマーは近年、現代の機械学習における多くの領域に革命をもたらしており、その顕著な発見は、モデルがパラメータを微調整することなくタスク固有のプロンプトを利用することで、目に見えないタスクを解決できる、コンテキスト内学習能力である。
これはまた、線形変圧器のみに焦点を当てた変換器の文脈内学習機構を理解することを目的とした最近の理論的研究にも影響を与えた。
本研究では,1層トランスフォーマの学習ダイナミクスを学習する第一歩として,勾配降下を通したソフトマックスアテンションを学習し,線形関数クラスを学習する。
我々は、各トークンがバランスのとれたか不均衡な方法で特徴ベクトルの集合からランダムにサンプリングされる構造化データモデルを考える。
バランスの取れた特徴量を持つデータに対して,注意マップのトレーニングダイナミクスの2段階にわたって解析を行い,予測誤差がほぼゼロに近い有限時間収束保証を確立する。
さらに、不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程を採り、まずトランスフォーマーが支配的特徴のクエリトークンに対してほぼゼロに近い予測誤差に収束し、その後、1と4のトレーニングフェーズを経て、未表現特徴のクエリトークンに対してほぼゼロに近い予測誤差に収束することを示す。
本研究は,2種類の注意重みの競合強度を解析し,異なる学習段階を決定する新しい手法を特徴とする。
関連論文リスト
- A distributional simplicity bias in the learning dynamics of transformers [50.91742043564049]
自然言語データに基づいてトレーニングされたトランスフォーマーは、単純さのバイアスも示している。
具体的には、入力トークン間の多体相互作用を逐次学習し、低次相互作用の予測誤差において飽和点に達する。
このアプローチは、自然言語処理などにおいて、データ内の異なる順序の相互作用が学習にどのように影響するかを研究する可能性を開く。
論文 参考訳(メタデータ) (2024-10-25T15:39:34Z) - Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis [97.54180451650122]
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。
我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。
本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
論文 参考訳(メタデータ) (2024-10-12T17:50:58Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - Dynamical Mean-Field Theory of Self-Attention Neural Networks [0.0]
トランスフォーマーベースのモデルは、様々な領域で例外的な性能を示している。
動作方法や期待されるダイナミクスについてはほとんど分かっていない。
非平衡状態における非対称ホップフィールドネットワークの研究に手法を用いる。
論文 参考訳(メタデータ) (2024-06-11T13:29:34Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文 参考訳(メタデータ) (2023-06-16T15:50:03Z) - Transformers as Algorithms: Generalization and Implicit Model Selection
in In-context Learning [23.677503557659705]
In-context Learning (ICL) は、トランスフォーマーモデルが一連の例で動作し、オンザフライで推論を行うプロンプトの一種である。
我々は,このトランスモデルを学習アルゴリズムとして扱い,推論時別のターゲットアルゴリズムを実装するためのトレーニングを通じて専門化することができる。
変換器は適応学習アルゴリズムとして機能し、異なる仮説クラス間でモデル選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-17T18:31:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。