論文の概要: Transformers Meet In-Context Learning: A Universal Approximation Theory
- arxiv url: http://arxiv.org/abs/2506.05200v1
- Date: Thu, 05 Jun 2025 16:12:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.810499
- Title: Transformers Meet In-Context Learning: A Universal Approximation Theory
- Title(参考訳): インコンテクスト学習とトランスフォーマー : ユニバーサル近似理論
- Authors: Gen Li, Yuchen Jiao, Yu Huang, Yuting Wei, Yuxin Chen,
- Abstract要約: 我々は、変換器が文脈内学習を実現する方法をよりよく理解するために、普遍近似理論を開発する。
私たちの研究は、トランスフォーマーが汎用表現を同時に学習し、コンテキスト内の例に動的に適応する方法に光を当てています。
- 参考スコア(独自算出の注目度): 25.109347875620436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern large language models are capable of in-context learning, the ability to perform new tasks at inference time using only a handful of input-output examples in the prompt, without any fine-tuning or parameter updates. We develop a universal approximation theory to better understand how transformers enable in-context learning. For any class of functions (each representing a distinct task), we demonstrate how to construct a transformer that, without any further weight updates, can perform reliable prediction given only a few in-context examples. In contrast to much of the recent literature that frames transformers as algorithm approximators -- i.e., constructing transformers to emulate the iterations of optimization algorithms as a means to approximate solutions of learning problems -- our work adopts a fundamentally different approach rooted in universal function approximation. This alternative approach offers approximation guarantees that are not constrained by the effectiveness of the optimization algorithms being approximated, thereby extending far beyond convex problems and linear function classes. Our construction sheds light on how transformers can simultaneously learn general-purpose representations and adapt dynamically to in-context examples.
- Abstract(参考訳): 現代の大規模言語モデルは、インコンテキストの学習が可能であり、微調整やパラメータの更新なしに、プロンプト内の入力出力サンプルのほんの一握りの例を使って、推論時に新しいタスクを実行することができる。
我々は、変換器が文脈内学習を実現する方法をよりよく理解するために、普遍近似理論を開発する。
任意の種類の関数(それぞれ別のタスクを表す)に対して、さらに重み付けをせずに、いくつかのコンテキスト内例を考慮すれば信頼性の高い予測を行うことができるトランスフォーマーを構築する方法を示す。
アルゴリズム近似器として変換器をフレーム化している最近の多くの文献とは対照的に、最適化アルゴリズムの反復を学習問題の解を近似する手段としてエミュレートする変換器の構築は、普遍関数近似に根ざした根本的に異なるアプローチを採用する。
この代替手法は、最適化アルゴリズムの有効性に制約されない近似保証を提供し、それによって凸問題や線形関数クラスを超えて拡張する。
我々の構築では、トランスフォーマーが汎用表現を同時に学習し、コンテキスト内の例に動的に適応する方法について光を当てています。
関連論文リスト
- Learning Spectral Methods by Transformers [18.869174453242383]
多層トランスフォーマーは、十分な数の事前学習インスタンスを与えられた場合、アルゴリズム自体を学習可能であることを示す。
この学習パラダイムは、コンテキスト内学習設定とは異なるものであり、人間の脳の学習手順と似ている。
論文 参考訳(メタデータ) (2025-01-02T15:53:25Z) - Transformers Implement Functional Gradient Descent to Learn Non-Linear Functions In Context [44.949726166566236]
非線形変換器は自然に関数空間の勾配降下を実装することを学習する。
また、非線形活性化の最適選択は、学習すべき関数のクラスに自然に依存していることも示している。
論文 参考訳(メタデータ) (2023-12-11T17:05:25Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Transformers as Algorithms: Generalization and Implicit Model Selection
in In-context Learning [23.677503557659705]
In-context Learning (ICL) は、トランスフォーマーモデルが一連の例で動作し、オンザフライで推論を行うプロンプトの一種である。
我々は,このトランスモデルを学習アルゴリズムとして扱い,推論時別のターゲットアルゴリズムを実装するためのトレーニングを通じて専門化することができる。
変換器は適応学習アルゴリズムとして機能し、異なる仮説クラス間でモデル選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-17T18:31:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。