論文の概要: Trained Transformers Learn Linear Models In-Context
- arxiv url: http://arxiv.org/abs/2306.09927v2
- Date: Fri, 11 Aug 2023 02:04:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 16:43:20.876410
- Title: Trained Transformers Learn Linear Models In-Context
- Title(参考訳): 学習したトランスフォーマーは文脈内で線形モデルを学ぶ
- Authors: Ruiqi Zhang, Spencer Frei, Peter L. Bartlett
- Abstract要約: トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
- 参考スコア(独自算出の注目度): 35.55702720785317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention-based neural networks such as transformers have demonstrated a
remarkable ability to exhibit in-context learning (ICL): Given a short prompt
sequence of tokens from an unseen task, they can formulate relevant per-token
and next-token predictions without any parameter updates. By embedding a
sequence of labeled training data and unlabeled test data as a prompt, this
allows for transformers to behave like supervised learning algorithms. Indeed,
recent work has shown that when training transformer architectures over random
instances of linear regression problems, these models' predictions mimic those
of ordinary least squares.
Towards understanding the mechanisms underlying this phenomenon, we
investigate the dynamics of ICL in transformers with a single linear
self-attention layer trained by gradient flow on linear regression tasks. We
show that despite non-convexity, gradient flow with a suitable random
initialization finds a global minimum of the objective function. At this global
minimum, when given a test prompt of labeled examples from a new prediction
task, the transformer achieves prediction error competitive with the best
linear predictor over the test prompt distribution. We additionally
characterize the robustness of the trained transformer to a variety of
distribution shifts and show that although a number of shifts are tolerated,
shifts in the covariate distribution of the prompts are not. Motivated by this,
we consider a generalized ICL setting where the covariate distributions can
vary across prompts. We show that although gradient flow succeeds at finding a
global minimum in this setting, the trained transformer is still brittle under
mild covariate shifts. We complement this finding with experiments on large,
nonlinear transformer architectures which we show are more robust under
covariate shifts.
- Abstract(参考訳): 意図しないタスクからトークンの短いプロンプトシーケンスを与えられたら、パラメータを更新することなく、関連するトーケンと次のトーケンの予測を定式化できます。
ラベル付きトレーニングデータとラベルなしテストデータをプロンプトとして組み込むことで、トランスフォーマーは教師付き学習アルゴリズムのように振る舞うことができる。
実際、最近の研究は、線形回帰問題のランダムなインスタンス上でトランスフォーマーアーキテクチャを訓練する場合、これらのモデルの予測は通常の最小二乗のアーキテクチャを模倣することを示している。
この現象のメカニズムを理解するために,線形回帰タスクにおける勾配流によって訓練された1つの線形自己アテンション層を持つ変圧器のICLのダイナミクスについて検討する。
非凸性にもかかわらず、適切なランダム初期化を伴う勾配流は目的関数の最大の最小値を求める。
このグローバル最小では、新しい予測タスクからラベル付きサンプルのテストプロンプトが与えられると、テストプロンプト分布よりも最適な線形予測器と競合する予測エラーが達成される。
さらに,訓練された変圧器のロバスト性を様々な分布シフトに特徴付け,多くのシフトが許容されるが,プロンプトの共変量分布のシフトはそうではないことを示す。
この動機付けにより,共変量分布がプロンプトによって変化する一般化icl設定を考える。
グラデーションフローはこの設定でグローバル最小値を求めるのに成功しているが、訓練されたトランスフォーマーは穏やかな共変量シフトの下でも不安定である。
この発見を、共変量シフトの下でより堅牢であることを示す大きな非線形トランスフォーマーアーキテクチャの実験で補完する。
関連論文リスト
- One-Layer Transformer Provably Learns One-Nearest Neighbor In Context [48.4979348643494]
本研究では、1層変圧器が1層近傍の規則を学習する能力について検討する。
単一のソフトマックスアテンション層は、ワンアレスト隣人のように振る舞うことをうまく学ぶことができる。
論文 参考訳(メタデータ) (2024-11-16T16:12:42Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Trained Transformer Classifiers Generalize and Exhibit Benign Overfitting In-Context [25.360386832940875]
線形回帰タスクにおいて、線形変圧器がランダムなインスタンス上で事前学習されている場合、通常の最小二乗法と同様のアルゴリズムを用いて予測を行うことを示す。
いくつかの設定では、これらの訓練されたトランスフォーマーは「コンテキスト内の良性オーバーフィット」を示すことができる。
論文 参考訳(メタデータ) (2024-10-02T17:30:21Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - On Mesa-Optimization in Autoregressively Trained Transformers: Emergence and Capability [34.43255978863601]
いくつかの説では、トランスフォーマーはオートレアトレーニング中にmesa-optimizerを学習する。
データモーメントに関する強い仮定は、学習されたメザ最適化器が実行可能な十分な必要条件であることを示す。
論文 参考訳(メタデータ) (2024-05-27T05:41:06Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。