論文の概要: In-Context Learning of Polynomial Kernel Regression in Transformers with GLU Layers
- arxiv url: http://arxiv.org/abs/2501.18187v1
- Date: Thu, 30 Jan 2025 07:41:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:12:46.629847
- Title: In-Context Learning of Polynomial Kernel Regression in Transformers with GLU Layers
- Title(参考訳): GLU層を有する変圧器におけるポリノミアルカーネル回帰の文脈学習
- Authors: Haoyuan Sun, Ali Jadbabaie, Navid Azizan,
- Abstract要約: トランスフォーマーに基づくモデルは、インコンテキスト学習(ICL)において顕著な能力を示した
近年の研究では、勾配降下推定器を実装することで線形変換器がICLをどのように実行できるかについての知見が得られている。
我々は,LSAとGLUのようなフィードフォワード層を組み合わせる機構について検討し,このモデルがカーネル回帰の勾配降下の一段階を実行することを示す。
- 参考スコア(独自算出の注目度): 19.606993863000906
- License:
- Abstract: Transformer-based models have demonstrated remarkable ability in in-context learning (ICL), where they can adapt to unseen tasks from a prompt with a few examples, without requiring parameter updates. Recent research has provided insight into how linear Transformers can perform ICL by implementing gradient descent estimators. In particular, it has been shown that the optimal linear self-attention (LSA) mechanism can implement one step of gradient descent with respect to a linear least-squares objective when trained on random linear regression tasks. However, the theoretical understanding of ICL for nonlinear function classes remains limited. In this work, we address this gap by first showing that LSA is inherently restricted to solving linear least-squares objectives and thus, the solutions in prior works cannot readily extend to nonlinear ICL tasks. To overcome this limitation, drawing inspiration from modern architectures, we study a mechanism that combines LSA with GLU-like feed-forward layers and show that this allows the model to perform one step of gradient descent on a polynomial kernel regression. Further, we characterize the scaling behavior of the resulting Transformer model, highlighting the necessary model size to effectively handle quadratic ICL tasks. Our findings highlight the distinct roles of attention and feed-forward layers in nonlinear ICL and identify key challenges when extending ICL to nonlinear function classes.
- Abstract(参考訳): トランスフォーマーベースのモデルは、パラメータ更新を必要とせず、プロンプトから見えないタスクに適応できる、コンテキスト内学習(ICL)において顕著な能力を示している。
近年の研究では、勾配降下推定器を実装することで線形変換器がICLをどのように実行できるかについての知見が得られている。
特に、最適線形自己アテンション(LSA)機構は、ランダムな線形回帰タスクで訓練された場合、線形最小二乗目標に対して勾配勾配の1ステップを実装できることが示されている。
しかし、非線形関数類に対する ICL の理論的理解は依然として限られている。
本研究では, LSA が線形最小二乗の目的を解くことに本質的に制限されていることを示すことにより, このギャップに対処する。
この制限を克服し、現代のアーキテクチャからインスピレーションを得た上で、LSAとGLUのようなフィードフォワード層を組み合わせたメカニズムについて検討し、このモデルが多項式カーネル回帰の勾配勾配の1ステップを実行することができることを示す。
さらに,得られたTransformerモデルのスケーリング挙動を特徴付け,2次ICLタスクを効果的に処理するために必要なモデルサイズを強調した。
本研究は, 非線形ICLにおける注意層とフィードフォワード層の役割を明らかにするとともに, 非線形関数クラスへの拡張における重要な課題を明らかにする。
関連論文リスト
- Re-examining learning linear functions in context [1.8843687952462742]
In-context Learning (ICL) は大規模言語モデル(LLM)を様々なタスクに容易に適応するための強力なパラダイムとして登場した。
合成学習データを用いた制御設定でICLの簡単なモデルについて検討する。
本研究は,線形関数を文脈内で学習するためのアルゴリズム的アプローチをトランスフォーマーが採用する,一般的な物語に挑戦するものである。
論文 参考訳(メタデータ) (2024-11-18T10:58:46Z) - Online Non-Stationary Stochastic Quasar-Convex Optimization [1.9244735303181755]
近年の研究では、線形系やロジスティック系の同定などの応用において、クエーサー活性化関数が見つかることが示されている。
動的環境におけるクエーサーにインスパイアされた設計問題を利用するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-07-04T03:24:27Z) - Asymptotic theory of in-context learning by linear attention [33.53106537972063]
インコンテキスト学習はトランスフォーマーの成功の土台である。
ICLを成功させるためには、必要なサンプルの複雑さ、事前学習タスクの多様性、コンテキストの長さに関する質問は未解決のままである。
論文 参考訳(メタデータ) (2024-05-20T03:24:24Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning [53.97335841137496]
非線形関数近似を用いたオフラインRLにおけるPNLSVI(Pessimistic Least-Square Value Iteration)と呼ばれるオラクル効率のアルゴリズムを提案する。
本アルゴリズムは,関数クラスの複雑性に強く依存する後悔境界を享受し,線形関数近似に特化して最小限のインスタンス依存後悔を実現する。
論文 参考訳(メタデータ) (2023-10-02T17:42:01Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Sample-Efficient Reinforcement Learning Is Feasible for Linearly
Realizable MDPs with Limited Revisiting [60.98700344526674]
線形関数表現のような低複雑度モデルがサンプル効率のよい強化学習を可能にする上で重要な役割を果たしている。
本稿では,オンライン/探索的な方法でサンプルを描画するが,制御不能な方法で以前の状態をバックトラックし,再訪することができる新しいサンプリングプロトコルについて検討する。
この設定に合わせたアルゴリズムを開発し、特徴次元、地平線、逆の準最適ギャップと実際にスケールするサンプル複雑性を実現するが、状態/作用空間のサイズではない。
論文 参考訳(メタデータ) (2021-05-17T17:22:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。