論文の概要: How Well Can Transformers Emulate In-context Newton's Method?
- arxiv url: http://arxiv.org/abs/2403.03183v1
- Date: Tue, 5 Mar 2024 18:20:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 13:53:17.910965
- Title: How Well Can Transformers Emulate In-context Newton's Method?
- Title(参考訳): トランスフォーマーはインコンテキストニュートンのメソッドをどの程度エミュレートできるか?
- Authors: Angeliki Giannou, Liu Yang, Tianhao Wang, Dimitris Papailiopoulos,
Jason D. Lee
- Abstract要約: 線形回帰以外の高次最適化手法をトランスフォーマーで行うことができるかどうかを考察する。
2層のみの行列逆転に対するニュートンの反復の単一ステップの実装において、線形注意のみの変換器が可能であることを実証する。
- 参考スコア(独自算出の注目度): 46.08521978754298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have demonstrated remarkable in-context learning
capabilities, prompting extensive research into its underlying mechanisms.
Recent studies have suggested that Transformers can implement first-order
optimization algorithms for in-context learning and even second order ones for
the case of linear regression. In this work, we study whether Transformers can
perform higher order optimization methods, beyond the case of linear
regression. We establish that linear attention Transformers with ReLU layers
can approximate second order optimization algorithms for the task of logistic
regression and achieve $\epsilon$ error with only a logarithmic to the error
more layers. As a by-product we demonstrate the ability of even linear
attention-only Transformers in implementing a single step of Newton's iteration
for matrix inversion with merely two layers. These results suggest the ability
of the Transformer architecture to implement complex algorithms, beyond
gradient descent.
- Abstract(参考訳): トランスフォーマーベースのモデルは、その基盤となるメカニズムを広範囲に研究する上で、顕著なコンテキスト内学習能力を示している。
近年の研究では、トランスフォーマーは文脈内学習のための一階最適化アルゴリズムを実装できることが示唆されている。
本研究では,線形回帰以外の高次最適化手法をトランスフォーマーで実現できるかを検討する。
我々は,ReLU層を有する線形アテンション変換器が,ロジスティック回帰処理の2次最適化アルゴリズムを近似し,エラーをより多くの層に対数化するだけで$\epsilon$エラーを達成できることを確立する。
副産物として、たった2つの層を持つ行列逆転に対するニュートンの反復の単一ステップを実装する際に、線形注意のみの変換器の能力を示す。
これらの結果から,Transformerアーキテクチャが勾配勾配を超える複雑なアルゴリズムを実装できることが示唆された。
関連論文リスト
- Linear Transformers are Versatile In-Context Learners [21.444440482020994]
任意の線形変圧器が暗黙の線形モデルを維持していることを証明し、事前条件付き勾配勾配の変種として解釈できる。
また、異なるレベルのノイズでトレーニングデータが破損する難易度シナリオにおける線形変圧器の使用についても検討する。
論文 参考訳(メタデータ) (2024-02-21T23:45:57Z) - How do Transformers perform In-Context Autoregressive Learning? [65.92202218348696]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - Transformers Implement Functional Gradient Descent to Learn Non-Linear
Functions In Context [50.518987580237955]
非線形変換器は自然に関数空間の勾配降下を実装することを学習する。
また、非線形活性化の最適選択は、学習すべき関数のクラスに自然に依存していることも示している。
論文 参考訳(メタデータ) (2023-12-11T17:05:25Z) - Transformers Learn Higher-Order Optimization Methods for In-Context
Learning: A Study with Linear Models [26.15757039132891]
In-context Learning を実現するために,Transformer が高次最適化手法の実装を学習していることを示す。
In-context on ill-conditioned data, is a setting where Gradient Descent struggles but Iterative Newton successfully。
論文 参考訳(メタデータ) (2023-10-26T01:08:47Z) - Linear attention is (maybe) all you need (to understand transformer
optimization) [55.81555204646486]
我々は、単純だが正準化された浅部変圧器モデルの研究により、変圧器の微妙さの理解に向けて前進する。
最も重要なことは、線形化モデルがトランスフォーマーのトレーニング力学のいくつかの顕著な側面を再現できることである。
論文 参考訳(メタデータ) (2023-10-02T10:48:42Z) - Transformers learn to implement preconditioned gradient descent for
in-context learning [41.74394657009037]
いくつかの最近の研究は、変圧器が勾配降下のようなアルゴリズムを実装できることを実証している。
トランスフォーマーは、ランダムな問題インスタンスをトレーニングすることで、そのようなアルゴリズムの実装を学べますか?
注意層が$L$の変圧器では,事前条件付き勾配勾配の反復として$L$を具現化する訓練対象の臨界点が証明される。
論文 参考訳(メタデータ) (2023-06-01T02:35:57Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。