論文の概要: Provable In-Context Learning of Nonlinear Regression with Transformers
- arxiv url: http://arxiv.org/abs/2507.20443v1
- Date: Mon, 28 Jul 2025 00:09:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.682607
- Title: Provable In-Context Learning of Nonlinear Regression with Transformers
- Title(参考訳): 変圧器を用いた非線形回帰の確率的インコンテキスト学習
- Authors: Hongbo Li, Lingjie Duan, Yingbin Liang,
- Abstract要約: In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。
最近の研究はICLの背後にあるトレーニングダイナミクスを積極的に探求している。
本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
- 参考スコア(独自算出の注目度): 58.018629320233174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transformer architecture, which processes sequences of input tokens to produce outputs for query tokens, has revolutionized numerous areas of machine learning. A defining feature of transformers is their ability to perform previously unseen tasks using task-specific prompts without updating parameters, a phenomenon known as in-context learning (ICL). Recent research has actively explored the training dynamics behind ICL, with much of the focus on relatively simple tasks such as linear regression and binary classification. To advance the theoretical understanding of ICL, this paper investigates more complex nonlinear regression tasks, aiming to uncover how transformers acquire in-context learning capabilities in these settings. We analyze the stage-wise dynamics of attention during training: attention scores between a query token and its target features grow rapidly in the early phase, then gradually converge to one, while attention to irrelevant features decays more slowly and exhibits oscillatory behavior. Our analysis introduces new proof techniques that explicitly characterize how the nature of general non-degenerate L-Lipschitz task functions affects attention weights. Specifically, we identify that the Lipschitz constant L of nonlinear function classes as a key factor governing the convergence dynamics of transformers in ICL. Leveraging these insights, for two distinct regimes depending on whether L is below or above a threshold, we derive different time bounds to guarantee near-zero prediction error. Notably, despite the convergence time depending on the underlying task functions, we prove that query tokens consistently attend to prompt tokens with highly relevant features at convergence, demonstrating the ICL capability of transformers for unseen functions.
- Abstract(参考訳): 入力トークンのシーケンスを処理してクエリトークンの出力を生成するトランスフォーマーアーキテクチャは、機械学習の多くの領域に革命をもたらした。
トランスフォーマーの定義上の特徴は、パラメータを更新せずにタスク固有のプロンプトを使用して、以前は見つからなかったタスクを実行する能力である。
最近の研究は、線形回帰や二分分類といった比較的単純なタスクに重点を置いて、ICLの背後にあるトレーニング力学を積極的に研究している。
ICLの理論的理解を深めるために, 変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として, より複雑な非線形回帰タスクについて検討する。
問合せトークンとその対象特徴間の注意スコアは早期に急速に増加し,その後徐々に収束し,無関係特徴に対する注意はよりゆっくりと減衰し,振動行動を示す。
本稿では,一般の非退化L-Lipschitzタスク関数の性質が注意重みにどのように影響するかを明示する新しい証明手法を提案する。
具体的には、非線形関数クラスのリプシッツ定数 L が、ICL における変圧器の収束ダイナミクスを規定する鍵因子であることを示す。
これらの知見を活用すると、L がしきい値より下か上かによって異なる2つの状態に対して、ほぼゼロに近い予測誤差を保証するために異なる時間境界を導出する。
特に、基礎となるタスク関数に依存する収束時間にもかかわらず、クエリトークンがコンバージェンスに関連性の高い特徴を持つプロンプトトークンに一貫して対応していることが証明され、未知の関数に対する変換器のICL能力が実証された。
関連論文リスト
- Transformers Don't In-Context Learn Least Squares Regression [5.648229654902264]
In-context Learning (ICL) は、大規模な事前学習型トランスフォーマーの強力な能力として登場した。
我々は、トランスフォーマーが推論時に学習をどのように実装するかを研究する。
ICLの行動形成におけるプレトレーニングコーパスの役割を強調した。
論文 参考訳(メタデータ) (2025-07-13T01:09:26Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文 参考訳(メタデータ) (2023-06-16T15:50:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。