論文の概要: Asymptotic theory of in-context learning by linear attention
- arxiv url: http://arxiv.org/abs/2405.11751v1
- Date: Mon, 20 May 2024 03:24:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 14:23:32.357473
- Title: Asymptotic theory of in-context learning by linear attention
- Title(参考訳): 線形注意による文脈内学習の漸近理論
- Authors: Yue M. Lu, Mary I. Letey, Jacob A. Zavatone-Veth, Anindita Maiti, Cengiz Pehlevan,
- Abstract要約: インコンテキスト学習はトランスフォーマーの成功の土台である。
ICLを成功させるためには、必要なサンプルの複雑さ、事前学習タスクの多様性、コンテキストの長さに関する質問は未解決のままである。
- 参考スコア(独自算出の注目度): 33.53106537972063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have a remarkable ability to learn and execute tasks based on examples provided within the input itself, without explicit prior training. It has been argued that this capability, known as in-context learning (ICL), is a cornerstone of Transformers' success, yet questions about the necessary sample complexity, pretraining task diversity, and context length for successful ICL remain unresolved. Here, we provide a precise answer to these questions in an exactly solvable model of ICL of a linear regression task by linear attention. We derive sharp asymptotics for the learning curve in a phenomenologically-rich scaling regime where the token dimension is taken to infinity; the context length and pretraining task diversity scale proportionally with the token dimension; and the number of pretraining examples scales quadratically. We demonstrate a double-descent learning curve with increasing pretraining examples, and uncover a phase transition in the model's behavior between low and high task diversity regimes: In the low diversity regime, the model tends toward memorization of training tasks, whereas in the high diversity regime, it achieves genuine in-context learning and generalization beyond the scope of pretrained tasks. These theoretical insights are empirically validated through experiments with both linear attention and full nonlinear Transformer architectures.
- Abstract(参考訳): トランスフォーマーは、明示的な事前トレーニングなしで、入力自身で提供される例に基づいてタスクを学習し、実行することができる。
イン・コンテクスト・ラーニング(ICL)として知られるこの能力はトランスフォーマーの成功の基盤であるが、必要なサンプルの複雑さ、タスクの多様性の事前学習、ICLの成功のためのコンテキスト長については未解決のままである。
ここでは、線形回帰タスクのICLの正確な解法モデルにおいて、これらの疑問に対する正確な答えを提供する。
我々は,トークン次元が無限大となる現象論的に豊富なスケーリングシステムにおいて,学習曲線に対する鋭い漸近を導出する。文脈長と事前学習タスクの多様性はトークン次元に比例してスケールし,事前学習サンプルの数は2次的にスケールする。
低多様性体制では、モデルはトレーニングタスクを記憶する傾向があり、高多様性体制では、事前訓練されたタスクの範囲を超えて真にコンテキスト内学習と一般化を達成する。
これらの理論的洞察は、線形注意と完全な非線形トランスフォーマーアーキテクチャの両方で実験によって実証的に検証される。
関連論文リスト
- Provable In-Context Learning of Linear Systems and Linear Elliptic PDEs with Transformers [9.208766125523612]
トランスフォーマーアーキテクチャを応用した自然言語処理の基礎モデルは、優れたコンテキスト内学習能力を示している。
線形楕円型PDEの族に付随する解演算子に適用した変換器ベースICLの厳密な誤差解析法を開発した。
分散シフトを経験する下流PDEタスクにおける事前学習された変換器の適応性を定量化する。
論文 参考訳(メタデータ) (2024-09-18T19:59:50Z) - Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。
我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。
十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文 参考訳(メタデータ) (2024-08-22T08:02:10Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - The mechanistic basis of data dependence and abrupt learning in an
in-context classification task [0.3626013617212666]
本研究では,言語固有の特定の分布特性が,2種類の学習のトレードオフや同時出現を制御していることを示す。
インコンテキスト学習は、誘導ヘッドの突然の出現によって駆動され、その後、インウェイト学習と競合する。
注意に基づくネットワークの急激な遷移は、ICLを実現するのに必要な多層演算の特定の連鎖によって生じると提案する。
論文 参考訳(メタデータ) (2023-12-03T20:53:41Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。