論文の概要: On the Role of Transformer Feed-Forward Layers in Nonlinear In-Context Learning
- arxiv url: http://arxiv.org/abs/2501.18187v3
- Date: Sat, 11 Oct 2025 04:44:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:08.121063
- Title: On the Role of Transformer Feed-Forward Layers in Nonlinear In-Context Learning
- Title(参考訳): 非線形インコンテキスト学習におけるトランスフォーマーフィードフォワード層の役割について
- Authors: Haoyuan Sun, Ali Jadbabaie, Navid Azizan,
- Abstract要約: トランスフォーマーベースのモデルは、パラメータを更新せずに、いくつかのプロンプト例から目に見えないタスクに適応できる、コンテキスト内学習(ICL)の驚くべき能力を示す。
最近の研究は、トランスフォーマーがICLを実行する方法を示し、最適線形自己アテンション(LSA)機構が線形最小二乗目的に対して勾配勾配の1ステップを実現できることを示した。
- 参考スコア(独自算出の注目度): 31.908611830179108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based models demonstrate a remarkable ability for in-context learning (ICL), where they can adapt to unseen tasks from a few prompt examples without parameter updates. Recent research has illuminated how Transformers perform ICL, showing that the optimal linear self-attention (LSA) mechanism can implement one step of gradient descent for linear least-squares objectives when trained on random linear regression tasks. Building on this, we investigate ICL for nonlinear function classes. We first prove that LSA is inherently incapable of outperforming linear predictors on nonlinear tasks, underscoring why prior solutions cannot readily extend to these problems. To overcome this limitation, we analyze a Transformer block consisting of LSA and feed-forward layers inspired by the gated linear units (GLU), which is a standard component of modern Transformers. We show that this block achieves nonlinear ICL by implementing one step of gradient descent on a polynomial kernel regression loss. Furthermore, our analysis reveals that the expressivity of a single block is inherently limited by its dimensions. We then show that a deep Transformer can overcome this bottleneck by distributing the computation of richer kernel functions across multiple blocks, performing block-coordinate descent in a high-dimensional feature space that a single block cannot represent. Our findings highlight that the feed-forward layers provide a crucial and scalable mechanism by which Transformers can express nonlinear representations for ICL.
- Abstract(参考訳): トランスフォーマーベースのモデルは、パラメータを更新せずに、いくつかのプロンプト例から目に見えないタスクに適応できる、コンテキスト内学習(ICL)の驚くべき能力を示す。
最近の研究は、トランスフォーマーがICLを実行する方法を示し、最適線形自己アテンション(LSA)機構が、ランダムな線形回帰タスクでトレーニングされた場合、線形最小二乗目的に対して勾配勾配の1ステップを実現できることを示した。
そこで本研究では,非線形関数クラスに対するICLについて検討する。
まず, LSA が非線形タスクにおいて線形予測器に勝ることができないことを証明し, 先行解がこれらの問題に容易に適用できない理由を指摘する。
この制限を克服するために、現代のトランスフォーマーの標準コンポーネントであるゲート線形ユニット(GLU)にインスパイアされたLSAとフィードフォワード層からなるトランスフォーマーブロックを解析する。
このブロックは多項式カーネルの回帰損失に対する勾配勾配の1ステップを実装することで非線形ICLを実現する。
さらに,本解析により, 1ブロックの表現性はその次元によって本質的に制限されていることが明らかとなった。
次に,複数のブロックにまたがるよりリッチなカーネル関数の計算を分散し,単一のブロックが表現できない高次元特徴空間においてブロック座標降下を行うことにより,このボトルネックを克服できることを示す。
その結果, フィードフォワード層はトランスフォーマーがICLの非線形表現を表現できる, 重要かつスケーラブルなメカニズムを提供することがわかった。
関連論文リスト
- Provable In-Context Learning of Nonlinear Regression with Transformers [58.018629320233174]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。
最近の研究はICLの背後にあるトレーニングダイナミクスを積極的に探求している。
本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文 参考訳(メタデータ) (2025-07-28T00:09:28Z) - Exact Learning Dynamics of In-Context Learning in Linear Transformers and Its Application to Non-Linear Transformers [1.7034813545878589]
トランスフォーマーモデルは、顕著なインコンテキスト学習(ICL)を示す
我々の研究は、ICLの正確な動的モデルを提供し、複雑なトランスフォーマートレーニングを解析するための理論的基盤ツールを提供する。
論文 参考訳(メタデータ) (2025-04-17T13:05:33Z) - Re-examining learning linear functions in context [1.8843687952462742]
In-context Learning (ICL) は大規模言語モデル(LLM)を様々なタスクに容易に適応するための強力なパラダイムとして登場した。
合成学習データを用いた制御設定でICLの簡単なモデルについて検討する。
本研究は,線形関数を文脈内で学習するためのアルゴリズム的アプローチをトランスフォーマーが採用する,一般的な物語に挑戦するものである。
論文 参考訳(メタデータ) (2024-11-18T10:58:46Z) - Asymptotic theory of in-context learning by linear attention [33.53106537972063]
インコンテキスト学習はトランスフォーマーの成功の土台である。
ICLを成功させるためには、必要なサンプルの複雑さ、事前学習タスクの多様性、コンテキストの長さに関する質問は未解決のままである。
論文 参考訳(メタデータ) (2024-05-20T03:24:24Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning [53.97335841137496]
非線形関数近似を用いたオフラインRLにおけるPNLSVI(Pessimistic Least-Square Value Iteration)と呼ばれるオラクル効率のアルゴリズムを提案する。
本アルゴリズムは,関数クラスの複雑性に強く依存する後悔境界を享受し,線形関数近似に特化して最小限のインスタンス依存後悔を実現する。
論文 参考訳(メタデータ) (2023-10-02T17:42:01Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Sample-Efficient Reinforcement Learning Is Feasible for Linearly
Realizable MDPs with Limited Revisiting [60.98700344526674]
線形関数表現のような低複雑度モデルがサンプル効率のよい強化学習を可能にする上で重要な役割を果たしている。
本稿では,オンライン/探索的な方法でサンプルを描画するが,制御不能な方法で以前の状態をバックトラックし,再訪することができる新しいサンプリングプロトコルについて検討する。
この設定に合わせたアルゴリズムを開発し、特徴次元、地平線、逆の準最適ギャップと実際にスケールするサンプル複雑性を実現するが、状態/作用空間のサイズではない。
論文 参考訳(メタデータ) (2021-05-17T17:22:07Z) - Sparse Quantized Spectral Clustering [85.77233010209368]
このような非線形変換の下で行列の固有スペクトルがどのように変化するのかを、ランダム行列理論のツールを用いて正確に述べる。
急激なスペーシング/量子化の下でも,情報的固有構造にはほとんど変化は見られなかった。
論文 参考訳(メタデータ) (2020-10-03T15:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。