論文の概要: Transformers Don't In-Context Learn Least Squares Regression
- arxiv url: http://arxiv.org/abs/2507.09440v1
- Date: Sun, 13 Jul 2025 01:09:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.254764
- Title: Transformers Don't In-Context Learn Least Squares Regression
- Title(参考訳): トランスフォーマーは最小の正方形回帰を学習しない
- Authors: Joshua Hill, Benjamin Eyre, Elliot Creager,
- Abstract要約: In-context Learning (ICL) は、大規模な事前学習型トランスフォーマーの強力な能力として登場した。
我々は、トランスフォーマーが推論時に学習をどのように実装するかを研究する。
ICLの行動形成におけるプレトレーニングコーパスの役割を強調した。
- 参考スコア(独自算出の注目度): 5.648229654902264
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In-context learning (ICL) has emerged as a powerful capability of large pretrained transformers, enabling them to solve new tasks implicit in example input-output pairs without any gradient updates. Despite its practical success, the mechanisms underlying ICL remain largely mysterious. In this work we study synthetic linear regression to probe how transformers implement learning at inference time. Previous works have demonstrated that transformers match the performance of learning rules such as Ordinary Least Squares (OLS) regression or gradient descent and have suggested ICL is facilitated in transformers through the learned implementation of one of these techniques. In this work, we demonstrate through a suite of out-of-distribution generalization experiments that transformers trained for ICL fail to generalize after shifts in the prompt distribution, a behaviour that is inconsistent with the notion of transformers implementing algorithms such as OLS. Finally, we highlight the role of the pretraining corpus in shaping ICL behaviour through a spectral analysis of the learned representations in the residual stream. Inputs from the same distribution as the training data produce representations with a unique spectral signature: inputs from this distribution tend to have the same top two singular vectors. This spectral signature is not shared by out-of-distribution inputs, and a metric characterizing the presence of this signature is highly correlated with low loss.
- Abstract(参考訳): In-context Learning (ICL) は、大きな事前訓練されたトランスフォーマーの強力な能力として登場し、インプットとアウトプットのペアをグレード更新することなく、新しいタスクを暗黙的に解決することができる。
実際の成功にもかかわらず、ICLの基盤となるメカニズムはほとんど謎のままである。
本研究では, 合成線形回帰法について検討し, 変圧器が推論時に学習を行う方法について検討する。
従来の研究は、変圧器が通常の最小方形(OLS)回帰や勾配降下などの学習規則に適合していることを示し、これらの手法の1つの学習実装を通じて、変圧器においてICLが促進されることを示唆している。
本研究では、ICLで訓練されたトランスフォーマーが、即時分布のシフト後に一般化を失敗する、分布外一般化実験のスイートを通じて、OLSのようなアルゴリズムを実装するトランスフォーマーの概念と矛盾する振る舞いを実演する。
最後に、残ストリームにおける学習表現のスペクトル分析を通して、ICLの行動形成における事前学習コーパスの役割を強調した。
トレーニングデータと同じ分布からの入力は、ユニークなスペクトルシグネチャを持つ表現を生成する:この分布からの入力は、上位2つの特異ベクトルを持つ傾向がある。
このスペクトルシグネチャは分布外入力では共有されず、このシグネチャの存在を特徴付ける計量は低損失と高い相関を持つ。
関連論文リスト
- Born a Transformer -- Always a Transformer? [57.37263095476691]
We study a family of $textitretrieval$ and $textitcopying$ tasks inspired by Liu et al。
我々は、事前訓練されたモデルがクエリトークンの左(アンチインダクション)よりも右(インダクション)へのトークンの検索が優れているような、$textitinduction-versus-anti-induction$ asymmetricを観察する。
力学解析により、この非対称性は、事前学習された変圧器内の誘導の強度と反誘導回路の強度の違いに関係していることが明らかになった。
論文 参考訳(メタデータ) (2025-05-27T21:36:50Z) - Trained Transformer Classifiers Generalize and Exhibit Benign Overfitting In-Context [25.360386832940875]
線形回帰タスクにおいて、線形変圧器がランダムなインスタンス上で事前学習されている場合、通常の最小二乗法と同様のアルゴリズムを用いて予測を行うことを示す。
いくつかの設定では、これらの訓練されたトランスフォーマーは「コンテキスト内の良性オーバーフィット」を示すことができる。
論文 参考訳(メタデータ) (2024-10-02T17:30:21Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文 参考訳(メタデータ) (2023-06-16T15:50:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。