論文の概要: How Data Mixing Shapes In-Context Learning: Asymptotic Equivalence for Transformers with MLPs
- arxiv url: http://arxiv.org/abs/2510.25753v1
- Date: Wed, 29 Oct 2025 17:51:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.901364
- Title: How Data Mixing Shapes In-Context Learning: Asymptotic Equivalence for Transformers with MLPs
- Title(参考訳): データ混合が文脈内学習をいかに形作るか : MLPを用いた変圧器の漸近等価性
- Authors: Samet Demir, Zafer Dogan,
- Abstract要約: 事前訓練されたトランスフォーマーは、目覚ましいコンテキスト内学習能力を示し、新しいタスクに適応できる。
複数のデータソースから引き出された非線形タスクに対して、非線形同値ヘッドを持つ事前学習されたトランスフォーマーのICLについて検討する。
我々の研究は、トランスフォーマーにおけるICLの理論基盤を前進させ、ICLにおけるアーキテクチャとデータの普遍性に関する実用的な洞察を提供する。
- 参考スコア(独自算出の注目度): 8.135786025034626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained Transformers demonstrate remarkable in-context learning (ICL) capabilities, enabling them to adapt to new tasks from demonstrations without parameter updates. However, theoretical studies often rely on simplified architectures (e.g., omitting MLPs), data models (e.g., linear regression with isotropic inputs), and single-source training, limiting their relevance to realistic settings. In this work, we study ICL in pretrained Transformers with nonlinear MLP heads on nonlinear tasks drawn from multiple data sources with heterogeneous input, task, and noise distributions. We analyze a model where the MLP comprises two layers, with the first layer trained via a single gradient step and the second layer fully optimized. Under high-dimensional asymptotics, we prove that such models are equivalent in ICL error to structured polynomial predictors, leveraging results from the theory of Gaussian universality and orthogonal polynomials. This equivalence reveals that nonlinear MLPs meaningfully enhance ICL performance, particularly on nonlinear tasks, compared to linear baselines. It also enables a precise analysis of data mixing effects: we identify key properties of high-quality data sources (low noise, structured covariances) and show that feature learning emerges only when the task covariance exhibits sufficient structure. These results are validated empirically across various activation functions, model sizes, and data distributions. Finally, we experiment with a real-world scenario involving multilingual sentiment analysis where each language is treated as a different source. Our experimental results for this case exemplify how our findings extend to real-world cases. Overall, our work advances the theoretical foundations of ICL in Transformers and provides actionable insight into the role of architecture and data in ICL.
- Abstract(参考訳): 事前訓練されたトランスフォーマーは、優れたインコンテキスト学習(ICL)機能を示し、パラメータ更新なしでデモから新しいタスクに適応できる。
しかしながら、理論的な研究は、単純化されたアーキテクチャ(例えば、MPPを省略する)、データモデル(例えば、等方的入力を持つ線形回帰)、単一ソーストレーニングに依存し、それらの関連性は現実的な設定に制限される。
本研究では、不均一な入力、タスク、ノイズ分布を持つ複数のデータソースから引き出された非線形タスクに対して、非線形MLPヘッドを持つ事前学習されたトランスフォーマーのICLについて検討する。
我々は,MLPが2つの層から構成されるモデルを分析し,第1の層は1つの勾配ステップでトレーニングし,第2の層は完全に最適化された。
高次元漸近論の下では、そのようなモデルがICL誤差において構造化多項式予測子に等価であることを証明し、ガウス普遍性と直交多項式の理論による結果を活用する。
この等価性は、非線形 MLP が線形ベースラインと比較して、特に非線形タスクにおいて、ICL 性能を有意に向上することを明らかにする。
高品質なデータソース(低ノイズ、構造化された共分散)の重要な特性を特定し、タスク共分散が十分な構造を示す場合にのみ特徴学習が現れることを示す。
これらの結果は、様々なアクティベーション関数、モデルサイズ、データ分布に対して実証的に検証される。
最後に、各言語が異なるソースとして扱われる多言語感情分析を含む実世界のシナリオを実験する。
本症例に対する実験結果は, 実際の症例にどのように進展するかを実証するものである。
全体として、我々の研究は、トランスフォーマーにおけるICLの理論基盤を前進させ、ICLにおけるアーキテクチャとデータの役割に関する実用的な洞察を提供する。
関連論文リスト
- Asymptotic Study of In-context Learning with Random Transformers through Equivalent Models [8.135786025034626]
非線形回帰の設定において,事前学習したトランスフォーマーの文脈内学習能力について検討する。
ランダムトランスフォーマーはICL誤差の観点から有限次ヘルミットモデルと等価に振る舞うことを示す。
論文 参考訳(メタデータ) (2025-09-18T16:57:27Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。