論文の概要: Asymptotic Study of In-context Learning with Random Transformers through Equivalent Models
- arxiv url: http://arxiv.org/abs/2509.15152v1
- Date: Thu, 18 Sep 2025 16:57:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.350824
- Title: Asymptotic Study of In-context Learning with Random Transformers through Equivalent Models
- Title(参考訳): 等価モデルによるランダム変換器を用いた文脈内学習の漸近的研究
- Authors: Samet Demir, Zafer Dogan,
- Abstract要約: 非線形回帰の設定において,事前学習したトランスフォーマーの文脈内学習能力について検討する。
ランダムトランスフォーマーはICL誤差の観点から有限次ヘルミットモデルと等価に振る舞うことを示す。
- 参考スコア(独自算出の注目度): 8.135786025034626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the in-context learning (ICL) capabilities of pretrained Transformers in the setting of nonlinear regression. Specifically, we focus on a random Transformer with a nonlinear MLP head where the first layer is randomly initialized and fixed while the second layer is trained. Furthermore, we consider an asymptotic regime where the context length, input dimension, hidden dimension, number of training tasks, and number of training samples jointly grow. In this setting, we show that the random Transformer behaves equivalent to a finite-degree Hermite polynomial model in terms of ICL error. This equivalence is validated through simulations across varying activation functions, context lengths, hidden layer widths (revealing a double-descent phenomenon), and regularization settings. Our results offer theoretical and empirical insights into when and how MLP layers enhance ICL, and how nonlinearity and over-parameterization influence model performance.
- Abstract(参考訳): 非線形回帰の設定における事前学習変換器の文脈内学習(ICL)機能について検討する。
具体的には,第1層をランダムに初期化固定し,第2層をトレーニングする非線形MLPヘッドを有するランダムトランスに着目した。
さらに, 文脈長, 入力次元, 隠れ次元, トレーニングタスク数, トレーニングサンプル数がともに増加する漸近的状況を考える。
この設定では、乱変換器はICL誤差の観点から有限次ヘルミット多項式モデルと等価に振る舞うことを示す。
この等価性は、様々なアクティベーション関数、コンテキスト長、隠された層幅(二重発光現象を反映する)、正規化設定のシミュレーションを通じて検証される。
この結果から, MLP層がICLをいつ, どのように拡張するか, 非線形性や過度パラメータ化がモデル性能に与える影響について, 理論的および実証的な知見が得られた。
関連論文リスト
- Provable In-Context Learning of Nonlinear Regression with Transformers [58.018629320233174]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。
最近の研究はICLの背後にあるトレーニングダイナミクスを積極的に探求している。
本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文 参考訳(メタデータ) (2025-07-28T00:09:28Z) - Exact Learning Dynamics of In-Context Learning in Linear Transformers and Its Application to Non-Linear Transformers [1.7034813545878589]
トランスフォーマーモデルは、顕著なインコンテキスト学習(ICL)を示す
我々の研究は、ICLの正確な動的モデルを提供し、複雑なトランスフォーマートレーニングを解析するための理論的基盤ツールを提供する。
論文 参考訳(メタデータ) (2025-04-17T13:05:33Z) - Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis [97.54180451650122]
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。
我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。
本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
論文 参考訳(メタデータ) (2024-10-12T17:50:58Z) - Asymptotic theory of in-context learning by linear attention [33.53106537972063]
インコンテキスト学習はトランスフォーマーの成功の土台である。
ICLを成功させるためには、必要なサンプルの複雑さ、事前学習タスクの多様性、コンテキストの長さに関する質問は未解決のままである。
論文 参考訳(メタデータ) (2024-05-20T03:24:24Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。