論文の概要: Transformers learn in-context by gradient descent
- arxiv url: http://arxiv.org/abs/2212.07677v1
- Date: Thu, 15 Dec 2022 09:21:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 15:38:59.664666
- Title: Transformers learn in-context by gradient descent
- Title(参考訳): 変圧器は勾配降下によって文脈内学習する
- Authors: Johannes von Oswald, Eyvind Niklasson, Ettore Randazzo, Jo\~ao
Sacramento, Alexander Mordvintsev, Andrey Zhmoginov, Max Vladymyrov
- Abstract要約: 我々は、自動回帰タスクにおけるトランスフォーマーのトレーニングは、勾配に基づくメタラーニングの定式化と密接に関連していると主張している。
トレーニングされたトランスフォーマーがフォワードパスで勾配降下をどのように実装しているかを示す。
- 参考スコア(独自算出の注目度): 58.24152335931036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have become the state-of-the-art neural network architecture
across numerous domains of machine learning. This is partly due to their
celebrated ability to transfer and to learn in-context based on few examples.
Nevertheless, the mechanisms by which Transformers become in-context learners
are not well understood and remain mostly an intuition. Here, we argue that
training Transformers on auto-regressive tasks can be closely related to
well-known gradient-based meta-learning formulations. We start by providing a
simple weight construction that shows the equivalence of data transformations
induced by 1) a single linear self-attention layer and by 2) gradient-descent
(GD) on a regression loss. Motivated by that construction, we show empirically
that when training self-attention-only Transformers on simple regression tasks
either the models learned by GD and Transformers show great similarity or,
remarkably, the weights found by optimization match the construction. Thus we
show how trained Transformers implement gradient descent in their forward pass.
This allows us, at least in the domain of regression problems, to
mechanistically understand the inner workings of optimized Transformers that
learn in-context. Furthermore, we identify how Transformers surpass plain
gradient descent by an iterative curvature correction and learn linear models
on deep data representations to solve non-linear regression tasks. Finally, we
discuss intriguing parallels to a mechanism identified to be crucial for
in-context learning termed induction-head (Olsson et al., 2022) and show how it
could be understood as a specific case of in-context learning by gradient
descent learning within Transformers.
- Abstract(参考訳): トランスフォーマーは、機械学習の多くの領域にまたがる最先端のニューラルネットワークアーキテクチャとなっている。
これは、その有名な移行能力と、少数の例に基づいたコンテキスト内学習能力によるものだ。
しかし、トランスフォーマーが文脈内学習者となるメカニズムはよく理解されておらず、直観がほとんどである。
ここでは,自己回帰タスクにおけるトランスフォーマーのトレーニングは,よく知られた勾配に基づくメタラーニングの定式化と密接に関連していると論じる。
まず、データ変換の等価性を示す単純な重み構造を提供することから始める。
1) 単線自己保持層及びそれによる
2)退行損失に対する勾配日射量(gd)。
この構成により,GD と Transformer が学習したモデルのいずれかが,簡単な回帰作業において自己注意のみの変換器を訓練する場合,最適化によって得られた重みが構成に合致することを示す。
そこで, 訓練された変圧器が前方進路に勾配降下を行う方法を示す。
これにより、少なくとも回帰問題の領域では、コンテキスト内で学習する最適化トランスフォーマーの内部動作を機械的に理解することができます。
さらに, 逐次曲率補正によって変圧器が平滑勾配降下を乗り越える方法を同定し, 非線形回帰問題を解くために深部データ表現の線形モデルを学ぶ。
最後に,インコンテクスト学習において重要な機構であるインコンテクスト学習(olsson et al., 2022)の並列性を考察し,トランスフォーマ内の勾配降下学習によるインコンテクスト学習の具体例として理解する方法について述べる。
関連論文リスト
- Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - How Well Can Transformers Emulate In-context Newton's Method? [46.08521978754298]
線形回帰以外の高次最適化手法をトランスフォーマーで行うことができるかどうかを考察する。
2層のみの行列逆転に対するニュートンの反復の単一ステップの実装において、線形注意のみの変換器が可能であることを実証する。
論文 参考訳(メタデータ) (2024-03-05T18:20:10Z) - Linear Transformers are Versatile In-Context Learners [19.988368693379087]
線形変圧器の各層が負の線形回帰問題に対する重みベクトルを維持していることを示す。
また、異なるレベルのノイズでトレーニングデータが破損する難易度シナリオにおける線形変圧器の使用についても検討する。
ここでは,線形変圧器が複雑かつ高効率な最適化アルゴリズムを発見することを実証する。
論文 参考訳(メタデータ) (2024-02-21T23:45:57Z) - How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - Linear attention is (maybe) all you need (to understand transformer
optimization) [55.81555204646486]
我々は、単純だが正準化された浅部変圧器モデルの研究により、変圧器の微妙さの理解に向けて前進する。
最も重要なことは、線形化モデルがトランスフォーマーのトレーニング力学のいくつかの顕著な側面を再現できることである。
論文 参考訳(メタデータ) (2023-10-02T10:48:42Z) - Transformers learn to implement preconditioned gradient descent for
in-context learning [41.74394657009037]
いくつかの最近の研究は、変圧器が勾配降下のようなアルゴリズムを実装できることを実証している。
トランスフォーマーは、ランダムな問題インスタンスをトレーニングすることで、そのようなアルゴリズムの実装を学べますか?
注意層が$L$の変圧器では,事前条件付き勾配勾配の反復として$L$を具現化する訓練対象の臨界点が証明される。
論文 参考訳(メタデータ) (2023-06-01T02:35:57Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - The Closeness of In-Context Learning and Weight Shifting for Softmax
Regression [42.95984289657388]
ソフトマックス回帰定式化に基づく文脈内学習について検討する。
基本回帰タスクに対して自己注意のみの変換器を訓練する場合、勾配差と変換器で学習したモデルに非常に類似性があることが示される。
論文 参考訳(メタデータ) (2023-04-26T04:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。