Fugu-MT 論文翻訳(概要): Trained Transformers Learn Linear Models In-Context

論文の概要: Trained Transformers Learn Linear Models In-Context

arxiv url: http://arxiv.org/abs/2306.09927v3
Date: Thu, 19 Oct 2023 20:31:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 03:32:52.896779
Title: Trained Transformers Learn Linear Models In-Context
Title（参考訳）: 学習したトランスフォーマーは文脈内で線形モデルを学ぶ
Authors: Ruiqi Zhang, Spencer Frei, Peter L. Bartlett
Abstract要約: トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
参考スコア（独自算出の注目度）: 39.56636898650966
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Attention-based neural networks such as transformers have demonstrated a remarkable ability to exhibit in-context learning (ICL): Given a short prompt sequence of tokens from an unseen task, they can formulate relevant per-token and next-token predictions without any parameter updates. By embedding a sequence of labeled training data and unlabeled test data as a prompt, this allows for transformers to behave like supervised learning algorithms. Indeed, recent work has shown that when training transformer architectures over random instances of linear regression problems, these models' predictions mimic those of ordinary least squares. Towards understanding the mechanisms underlying this phenomenon, we investigate the dynamics of ICL in transformers with a single linear self-attention layer trained by gradient flow on linear regression tasks. We show that despite non-convexity, gradient flow with a suitable random initialization finds a global minimum of the objective function. At this global minimum, when given a test prompt of labeled examples from a new prediction task, the transformer achieves prediction error competitive with the best linear predictor over the test prompt distribution. We additionally characterize the robustness of the trained transformer to a variety of distribution shifts and show that although a number of shifts are tolerated, shifts in the covariate distribution of the prompts are not. Motivated by this, we consider a generalized ICL setting where the covariate distributions can vary across prompts. We show that although gradient flow succeeds at finding a global minimum in this setting, the trained transformer is still brittle under mild covariate shifts. We complement this finding with experiments on large, nonlinear transformer architectures which we show are more robust under covariate shifts.
Abstract（参考訳）: 意図しないタスクからトークンの短いプロンプトシーケンスを与えられたら、パラメータを更新することなく、関連するトーケンと次のトーケンの予測を定式化できます。ラベル付きトレーニングデータとラベルなしテストデータをプロンプトとして組み込むことで、トランスフォーマーは教師付き学習アルゴリズムのように振る舞うことができる。実際、最近の研究は、線形回帰問題のランダムなインスタンス上でトランスフォーマーアーキテクチャを訓練する場合、これらのモデルの予測は通常の最小二乗のアーキテクチャを模倣することを示している。この現象のメカニズムを理解するために,線形回帰タスクにおける勾配流によって訓練された1つの線形自己アテンション層を持つ変圧器のICLのダイナミクスについて検討する。非凸性にもかかわらず、適切なランダム初期化を伴う勾配流は目的関数の最大の最小値を求める。このグローバル最小では、新しい予測タスクからラベル付きサンプルのテストプロンプトが与えられると、テストプロンプト分布よりも最適な線形予測器と競合する予測エラーが達成される。さらに,訓練された変圧器のロバスト性を様々な分布シフトに特徴付け,多くのシフトが許容されるが,プロンプトの共変量分布のシフトはそうではないことを示す。この動機付けにより,共変量分布がプロンプトによって変化する一般化icl設定を考える。グラデーションフローはこの設定でグローバル最小値を求めるのに成功しているが、訓練されたトランスフォーマーは穏やかな共変量シフトの下でも不安定である。この発見を、共変量シフトの下でより堅牢であることを示す大きな非線形トランスフォーマーアーキテクチャの実験で補完する。

関連論文リスト

From Shortcut to Induction Head: How Data Diversity Shapes Algorithm Selection in Transformers [67.02076505996284]
本研究では, 事前学習したデータ分布の選択が, 浅層変圧器を一方の行動に向ける方法について検討する。その結果,事前学習したトランスフォーマーのアルゴリズム的バイアスに光を当て,学習行動のデータ駆動制御に関する概念的ガイドラインを提供することができた。
論文参考訳（メタデータ） (2025-12-21T08:10:26Z)
Provable In-Context Learning of Nonlinear Regression with Transformers [58.018629320233174]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。最近の研究はICLの背後にあるトレーニングダイナミクスを積極的に探求している。本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文参考訳（メタデータ） (2025-07-28T00:09:28Z)
Transformers Don't In-Context Learn Least Squares Regression [5.648229654902264]
In-context Learning (ICL) は、大規模な事前学習型トランスフォーマーの強力な能力として登場した。我々は、トランスフォーマーが推論時に学習をどのように実装するかを研究する。 ICLの行動形成におけるプレトレーニングコーパスの役割を強調した。
論文参考訳（メタデータ） (2025-07-13T01:09:26Z)
In-Context Occam's Razor: How Transformers Prefer Simpler Hypotheses on the Fly [25.47694115798524]
In-context Learning (ICL) は、トランスフォーマーがパラメータを更新せずにコンテキストの例を通して新しいタスクに適応できるようにする。本稿では,より単純な処理によって生成される任意のパターンを,より複雑度の高いカテゴリで表現できる階層的タスク構造をトランスフォーマーがいかにナビゲートするかについて検討する。
論文参考訳（メタデータ） (2025-06-24T06:33:00Z)
One-Layer Transformer Provably Learns One-Nearest Neighbor In Context [48.4979348643494]
本研究では、1層変圧器が1層近傍の規則を学習する能力について検討する。単一のソフトマックスアテンション層は、ワンアレスト隣人のように振る舞うことをうまく学ぶことができる。
論文参考訳（メタデータ） (2024-11-16T16:12:42Z)
Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。この設定における多層トランスの理論的解析はこれが初めてである。
論文参考訳（メタデータ） (2024-10-10T18:29:05Z)
Trained Transformer Classifiers Generalize and Exhibit Benign Overfitting In-Context [25.360386832940875]
線形回帰タスクにおいて、線形変圧器がランダムなインスタンス上で事前学習されている場合、通常の最小二乗法と同様のアルゴリズムを用いて予測を行うことを示す。いくつかの設定では、これらの訓練されたトランスフォーマーは「コンテキスト内の良性オーバーフィット」を示すことができる。
論文参考訳（メタデータ） (2024-10-02T17:30:21Z)
In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文参考訳（メタデータ） (2024-08-19T16:47:46Z)
Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文参考訳（メタデータ） (2024-06-24T23:00:58Z)
On Mesa-Optimization in Autoregressively Trained Transformers: Emergence and Capability [34.43255978863601]
いくつかの説では、トランスフォーマーはオートレアトレーニング中にmesa-optimizerを学習する。データモーメントに関する強い仮定は、学習されたメザ最適化器が実行可能な十分な必要条件であることを示す。
論文参考訳（メタデータ） (2024-05-27T05:41:06Z)
In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文参考訳（メタデータ） (2023-10-08T17:55:33Z)
Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文参考訳（メタデータ） (2023-09-11T22:42:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。