論文の概要: Transformers learn to implement preconditioned gradient descent for
in-context learning
- arxiv url: http://arxiv.org/abs/2306.00297v2
- Date: Thu, 9 Nov 2023 21:46:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 18:02:43.566714
- Title: Transformers learn to implement preconditioned gradient descent for
in-context learning
- Title(参考訳): トランスフォーマーは文脈内学習のための事前条件付き勾配降下の実装を学習する
- Authors: Kwangjun Ahn, Xiang Cheng, Hadi Daneshmand, Suvrit Sra
- Abstract要約: いくつかの最近の研究は、変圧器が勾配降下のようなアルゴリズムを実装できることを実証している。
トランスフォーマーは、ランダムな問題インスタンスをトレーニングすることで、そのようなアルゴリズムの実装を学べますか?
注意層が$L$の変圧器では,事前条件付き勾配勾配の反復として$L$を具現化する訓練対象の臨界点が証明される。
- 参考スコア(独自算出の注目度): 41.74394657009037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Several recent works demonstrate that transformers can implement algorithms
like gradient descent. By a careful construction of weights, these works show
that multiple layers of transformers are expressive enough to simulate
iterations of gradient descent. Going beyond the question of expressivity, we
ask: Can transformers learn to implement such algorithms by training over
random problem instances? To our knowledge, we make the first theoretical
progress on this question via an analysis of the loss landscape for linear
transformers trained over random instances of linear regression. For a single
attention layer, we prove the global minimum of the training objective
implements a single iteration of preconditioned gradient descent. Notably, the
preconditioning matrix not only adapts to the input distribution but also to
the variance induced by data inadequacy. For a transformer with $L$ attention
layers, we prove certain critical points of the training objective implement
$L$ iterations of preconditioned gradient descent. Our results call for future
theoretical studies on learning algorithms by training transformers.
- Abstract(参考訳): 最近のいくつかの研究は、トランスフォーマーが勾配降下のようなアルゴリズムを実装できることを証明している。
重みの注意深い構成により、これらの研究は、複数の変圧器の層が勾配降下の反復をシミュレートするのに十分であることを示す。
トランスフォーマーは、ランダムな問題インスタンス上でトレーニングすることで、そのようなアルゴリズムを実装することを学べますか?
我々の知る限り、線形回帰のランダムな事例に基づいて訓練された線形変圧器の損失景観の解析を通じて、この問題に関する最初の理論的進歩を行う。
1つの注意層に対して、トレーニング対象のグローバルな最小値が事前条件付き勾配勾配の単一イテレーションを実装することを証明する。
特に、プレコンディショニング行列は入力分布だけでなく、データ不足によって引き起こされる分散にも適応する。
注意層が$L$の変圧器では,事前条件付き勾配勾配の反復として$L$を実装した訓練対象の臨界点が証明される。
この結果から,変圧器の訓練による学習アルゴリズムの理論的研究が望まれる。
関連論文リスト
- One-Layer Transformer Provably Learns One-Nearest Neighbor In Context [48.4979348643494]
本研究では、1層変圧器が1層近傍の規則を学習する能力について検討する。
単一のソフトマックスアテンション層は、ワンアレスト隣人のように振る舞うことをうまく学ぶことができる。
論文 参考訳(メタデータ) (2024-11-16T16:12:42Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - How Well Can Transformers Emulate In-context Newton's Method? [46.08521978754298]
線形回帰以外の高次最適化手法をトランスフォーマーで行うことができるかどうかを考察する。
2層のみの行列逆転に対するニュートンの反復の単一ステップの実装において、線形注意のみの変換器が可能であることを実証する。
論文 参考訳(メタデータ) (2024-03-05T18:20:10Z) - How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。