論文の概要: In-Context Learning with Representations: Contextual Generalization of Trained Transformers
- arxiv url: http://arxiv.org/abs/2408.10147v2
- Date: Wed, 25 Sep 2024 19:16:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 06:44:48.878304
- Title: In-Context Learning with Representations: Contextual Generalization of Trained Transformers
- Title(参考訳): 表現を用いたインテクスト学習:訓練された変圧器の文脈一般化
- Authors: Tong Yang, Yu Huang, Yingbin Liang, Yuejie Chi,
- Abstract要約: In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
- 参考スコア(独自算出の注目度): 66.78052387054593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning (ICL) refers to a remarkable capability of pretrained large language models, which can learn a new task given a few examples during inference. However, theoretical understanding of ICL is largely under-explored, particularly whether transformers can be trained to generalize to unseen examples in a prompt, which will require the model to acquire contextual knowledge of the prompt for generalization. This paper investigates the training dynamics of transformers by gradient descent through the lens of non-linear regression tasks. The contextual generalization here can be attained via learning the template function for each task in-context, where all template functions lie in a linear space with $m$ basis functions. We analyze the training dynamics of one-layer multi-head transformers to in-contextly predict unlabeled inputs given partially labeled prompts, where the labels contain Gaussian noise and the number of examples in each prompt are not sufficient to determine the template. Under mild assumptions, we show that the training loss for a one-layer multi-head transformer converges linearly to a global minimum. Moreover, the transformer effectively learns to perform ridge regression over the basis functions. To our knowledge, this study is the first provable demonstration that transformers can learn contextual (i.e., template) information to generalize to both unseen examples and tasks when prompts contain only a small number of query-answer pairs.
- Abstract(参考訳): In-context Learning (ICL) は、事前訓練された大規模言語モデルの顕著な能力を指し、推論のいくつかの例から新しいタスクを学習することができる。
しかし、ICLの理論的理解は、特にトランスフォーマーがプロンプト内の見知らぬ例に一般化するように訓練できるかどうかがほとんど未解明であり、このモデルが一般化のためのプロンプトの文脈的知識を取得する必要がある。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
ここでの文脈一般化は、すべてのテンプレート関数が$m$基底関数を持つ線型空間にある各タスクのコンテキスト内でテンプレート関数を学ぶことによって達成できる。
本研究では,一層型マルチヘッドトランスのトレーニングダイナミクスを解析し,部分的にラベル付けされたプロンプトが与えられたラベル付き入力をテキストで予測し,ガウス雑音を含むラベルと各プロンプトの例数でテンプレートを決定するのに十分ではないことを示す。
軽微な仮定では, 1層マルチヘッドトランスのトレーニング損失は, 大域的最小値に線形に収束する。
さらに、変換器は、基底関数よりもリッジ回帰を効果的に行うことを学習する。
我々の知る限り、この研究はトランスフォーマーが文脈情報(テンプレート)を学習し、プロンプトが少数の問合せ-問合せペアのみを含む場合に、見知らぬ例とタスクの両方に一般化できる最初の証明可能な実証である。
関連論文リスト
- Context-Scaling versus Task-Scaling in In-Context Learning [17.36757113301424]
In-Context Learning (ICL: In-Context Learning) の2つの重要なコンポーネント、コンテキストスケーリングとタスクスケーリングを分析します。
コンテクストスケーリングとタスクスケーリングの両方が可能であるが、ベクトル化された入力を持つ標準的なマルチ層パーセプトロン(MLP)はタスクスケーリングしかできないことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-16T17:58:08Z) - Trained Transformer Classifiers Generalize and Exhibit Benign Overfitting In-Context [25.360386832940875]
線形回帰タスクにおいて、線形変圧器がランダムなインスタンス上で事前学習されている場合、通常の最小二乗法と同様のアルゴリズムを用いて予測を行うことを示す。
いくつかの設定では、これらの訓練されたトランスフォーマーは「コンテキスト内の良性オーバーフィット」を示すことができる。
論文 参考訳(メタデータ) (2024-10-02T17:30:21Z) - Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。
我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。
十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文 参考訳(メタデータ) (2024-08-22T08:02:10Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Asymptotic theory of in-context learning by linear attention [33.53106537972063]
インコンテキスト学習はトランスフォーマーの成功の土台である。
ICLを成功させるためには、必要なサンプルの複雑さ、事前学習タスクの多様性、コンテキストの長さに関する質問は未解決のままである。
論文 参考訳(メタデータ) (2024-05-20T03:24:24Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文 参考訳(メタデータ) (2023-06-16T15:50:03Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - What Can Transformers Learn In-Context? A Case Study of Simple Function
Classes [67.06980111346245]
インコンテキスト学習(In-context learning)とは、インコンテキストの例からなるプロンプトシーケンスでモデルに条件を付ける能力である。
我々は,標準変換器をスクラッチから訓練して,線形関数の文脈内学習を行うことを示した。
また、タスク固有の学習アルゴリズムに適合または超越したパフォーマンスで、より複雑な関数クラスをコンテキスト内で学習できるようにトランスフォーマーを訓練できることも示している。
論文 参考訳(メタデータ) (2022-08-01T18:01:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。