論文の概要: Transformers Learn to Achieve Second-Order Convergence Rates for In-Context Linear Regression
- arxiv url: http://arxiv.org/abs/2310.17086v3
- Date: Sat, 16 Nov 2024 08:20:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:31:29.397430
- Title: Transformers Learn to Achieve Second-Order Convergence Rates for In-Context Linear Regression
- Title(参考訳): 変換器は文脈内線形回帰の2次収束率を学習する
- Authors: Deqing Fu, Tian-Qi Chen, Robin Jia, Vatsal Sharan,
- Abstract要約: 変換器は、文脈内線形回帰の2次最適化法を近似することを学習する。
文脈内線形回帰では、トランスフォーマーは反復ニュートン法と同様の収束率を共有し、どちらもGDよりも指数関数的に高速である。
また、Transformerは、Gradient Descentが苦戦するがIterative Newtonが成功するような環境で、不調なデータを使ってコンテキストで学習できることを示す。
- 参考スコア(独自算出の注目度): 23.944430707096103
- License:
- Abstract: Transformers excel at in-context learning (ICL) -- learning from demonstrations without parameter updates -- but how they do so remains a mystery. Recent work suggests that Transformers may internally run Gradient Descent (GD), a first-order optimization method, to perform ICL. In this paper, we instead demonstrate that Transformers learn to approximate second-order optimization methods for ICL. For in-context linear regression, Transformers share a similar convergence rate as Iterative Newton's Method, both exponentially faster than GD. Empirically, predictions from successive Transformer layers closely match different iterations of Newton's Method linearly, with each middle layer roughly computing 3 iterations; thus, Transformers and Newton's method converge at roughly the same rate. In contrast, Gradient Descent converges exponentially more slowly. We also show that Transformers can learn in-context on ill-conditioned data, a setting where Gradient Descent struggles but Iterative Newton succeeds. Finally, to corroborate our empirical findings, we prove that Transformers can implement $k$ iterations of Newton's method with $k + \mathcal{O}(1)$ layers.
- Abstract(参考訳): トランスフォーマーは、ICL(In-context Learning) -- パラメータ更新のないデモから学ぶ -- に優れていますが、その方法はまだ謎のままです。
最近の研究は、トランスフォーマーが内部的にGD(Gradient Descent)を1次最適化法で実行し、ICLを実行することを示唆している。
そこで本研究では,変換器がICLの2次最適化法を近似することを実証する。
文脈内線形回帰では、トランスフォーマーは反復ニュートン法と同様の収束率を共有し、どちらもGDよりも指数関数的に高速である。
経験的に、連続するトランスフォーマー層からの予測はニュートンのメソッドの異なるイテレーションと線形に一致し、各中間層は3つのイテレーションを大まかに計算し、したがってトランスフォーマーとニュートンの手法はほぼ同じ速度で収束する。
対照的に、勾配 Descent は指数関数的に徐々に収束する。
また、Transformerは、Gradient Descentが苦しむがIterative Newtonが成功するような環境で、不適切なデータを使ってコンテキストで学習できることを示す。
最後に、経験的発見を裏付けるために、Transformerが$k + \mathcal{O}(1)$レイヤでNewtonのメソッドの反復を$k$実装できることを証明した。
関連論文リスト
- Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Can Transformers Learn $n$-gram Language Models? [77.35809823602307]
2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。
例えば、$n$-gram LMに対する古典的な推定手法として、add-$lambda$ smoothing outperform transformerがある。
論文 参考訳(メタデータ) (2024-10-03T21:21:02Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - How Well Can Transformers Emulate In-context Newton's Method? [46.08521978754298]
線形回帰以外の高次最適化手法をトランスフォーマーで行うことができるかどうかを考察する。
2層のみの行列逆転に対するニュートンの反復の単一ステップの実装において、線形注意のみの変換器が可能であることを実証する。
論文 参考訳(メタデータ) (2024-03-05T18:20:10Z) - How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。