論文の概要: Transformers learn in-context by gradient descent
- arxiv url: http://arxiv.org/abs/2212.07677v2
- Date: Wed, 31 May 2023 08:59:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 20:44:37.280515
- Title: Transformers learn in-context by gradient descent
- Title(参考訳): 変圧器は勾配降下によって文脈内学習する
- Authors: Johannes von Oswald, Eyvind Niklasson, Ettore Randazzo, Jo\~ao
Sacramento, Alexander Mordvintsev, Andrey Zhmoginov, Max Vladymyrov
- Abstract要約: 自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
- 参考スコア(独自算出の注目度): 58.24152335931036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: At present, the mechanisms of in-context learning in Transformers are not
well understood and remain mostly an intuition. In this paper, we suggest that
training Transformers on auto-regressive objectives is closely related to
gradient-based meta-learning formulations. We start by providing a simple
weight construction that shows the equivalence of data transformations induced
by 1) a single linear self-attention layer and by 2) gradient-descent (GD) on a
regression loss. Motivated by that construction, we show empirically that when
training self-attention-only Transformers on simple regression tasks either the
models learned by GD and Transformers show great similarity or, remarkably, the
weights found by optimization match the construction. Thus we show how trained
Transformers become mesa-optimizers i.e. learn models by gradient descent in
their forward pass. This allows us, at least in the domain of regression
problems, to mechanistically understand the inner workings of in-context
learning in optimized Transformers. Building on this insight, we furthermore
identify how Transformers surpass the performance of plain gradient descent by
learning an iterative curvature correction and learn linear models on deep data
representations to solve non-linear regression tasks. Finally, we discuss
intriguing parallels to a mechanism identified to be crucial for in-context
learning termed induction-head (Olsson et al., 2022) and show how it could be
understood as a specific case of in-context learning by gradient descent
learning within Transformers. Code to reproduce the experiments can be found at
https://github.com/google-research/self-organising-systems/tree/master/transformers_learn_icl_by_gd .
- Abstract(参考訳): 現在,トランスフォーマーにおける文脈内学習のメカニズムはよく理解されておらず,直観がほとんどである。
本稿では,自己回帰目標に対するトランスフォーマーの訓練が,勾配に基づくメタラーニングの定式化と密接に関連していることを示す。
まず、データ変換の等価性を示す単純な重み構造を提供することから始める。
1) 単線自己保持層及びそれによる
2)退行損失に対する勾配日射量(gd)。
この構成により,GD と Transformer が学習したモデルのいずれかが,簡単な回帰作業において自己注意のみの変換器を訓練する場合,最適化によって得られた重みが構成に合致することを示す。
このように、トレーニングされたトランスフォーマーがメザ最適化器となる方法、すなわち、前方通過における勾配降下によるモデル学習方法を示す。
これにより、少なくとも回帰問題の領域では、最適化トランスフォーマーにおけるコンテキスト内学習の内部動作を機械的に理解することができます。
この知見に基づいて,反復曲率補正を学習し,非線形回帰問題を解くために深部データ表現の線形モデルを学ぶことにより,変圧器が平滑勾配降下の性能を乗り越える方法について検討した。
最後に,インコンテクスト学習において重要な機構であるインコンテクスト学習(olsson et al., 2022)の並列性を考察し,トランスフォーマ内の勾配降下学習によるインコンテクスト学習の具体例として理解する方法について述べる。
実験を再現するコードはhttps://github.com/google-research/self-organising-systems/tree/master/transformers_learn_icl_by_gd にある。
関連論文リスト
- Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - How Well Can Transformers Emulate In-context Newton's Method? [46.08521978754298]
線形回帰以外の高次最適化手法をトランスフォーマーで行うことができるかどうかを考察する。
2層のみの行列逆転に対するニュートンの反復の単一ステップの実装において、線形注意のみの変換器が可能であることを実証する。
論文 参考訳(メタデータ) (2024-03-05T18:20:10Z) - Linear Transformers are Versatile In-Context Learners [19.988368693379087]
線形変圧器の各層が負の線形回帰問題に対する重みベクトルを維持していることを示す。
また、異なるレベルのノイズでトレーニングデータが破損する難易度シナリオにおける線形変圧器の使用についても検討する。
ここでは,線形変圧器が複雑かつ高効率な最適化アルゴリズムを発見することを実証する。
論文 参考訳(メタデータ) (2024-02-21T23:45:57Z) - How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - Linear attention is (maybe) all you need (to understand transformer
optimization) [55.81555204646486]
我々は、単純だが正準化された浅部変圧器モデルの研究により、変圧器の微妙さの理解に向けて前進する。
最も重要なことは、線形化モデルがトランスフォーマーのトレーニング力学のいくつかの顕著な側面を再現できることである。
論文 参考訳(メタデータ) (2023-10-02T10:48:42Z) - Transformers learn to implement preconditioned gradient descent for
in-context learning [41.74394657009037]
いくつかの最近の研究は、変圧器が勾配降下のようなアルゴリズムを実装できることを実証している。
トランスフォーマーは、ランダムな問題インスタンスをトレーニングすることで、そのようなアルゴリズムの実装を学べますか?
注意層が$L$の変圧器では,事前条件付き勾配勾配の反復として$L$を具現化する訓練対象の臨界点が証明される。
論文 参考訳(メタデータ) (2023-06-01T02:35:57Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - The Closeness of In-Context Learning and Weight Shifting for Softmax
Regression [42.95984289657388]
ソフトマックス回帰定式化に基づく文脈内学習について検討する。
基本回帰タスクに対して自己注意のみの変換器を訓練する場合、勾配差と変換器で学習したモデルに非常に類似性があることが示される。
論文 参考訳(メタデータ) (2023-04-26T04:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。