論文の概要: Transformers Implement Functional Gradient Descent to Learn Non-Linear Functions In Context
- arxiv url: http://arxiv.org/abs/2312.06528v5
- Date: Fri, 19 Apr 2024 21:05:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 00:13:26.503710
- Title: Transformers Implement Functional Gradient Descent to Learn Non-Linear Functions In Context
- Title(参考訳): 非Linear関数を文脈で学習するトランスフォーマーによる機能的グラディエントDescentの実現
- Authors: Xiang Cheng, Yuxin Chen, Suvrit Sra,
- Abstract要約: 非線形変換器は自然に関数空間の勾配降下を実装することを学習する。
また、非線形活性化の最適選択は、学習すべき関数のクラスに自然に依存していることも示している。
- 参考スコア(独自算出の注目度): 44.949726166566236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many neural network architectures are known to be Turing Complete, and can thus, in principle implement arbitrary algorithms. However, Transformers are unique in that they can implement gradient-based learning algorithms under simple parameter configurations. This paper provides theoretical and empirical evidence that (non-linear) Transformers naturally learn to implement gradient descent in function space, which in turn enable them to learn non-linear functions in context. Our results apply to a broad class of combinations of non-linear architectures and non-linear in-context learning tasks. Additionally, we show that the optimal choice of non-linear activation depends in a natural way on the class of functions that need to be learned.
- Abstract(参考訳): 多くのニューラルネットワークアーキテクチャはチューリング完全であることが知られており、原理的には任意のアルゴリズムを実装できる。
しかし、Transformerは、単純なパラメータ設定で勾配に基づく学習アルゴリズムを実装することができるという点でユニークである。
本稿では,(非線形)トランスフォーマーが自然に関数空間の勾配降下を実装することを学習し,それによってコンテキスト内で非線形関数を学習できるという理論的および実証的な証拠を提供する。
本研究は,非線形アーキテクチャと非線形インコンテキスト学習タスクの幅広い組み合わせに適用する。
さらに、非線形活性化の最適選択は、学習すべき関数のクラスに自然に依存していることが示される。
関連論文リスト
- Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。
線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。
我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文 参考訳(メタデータ) (2024-10-14T02:41:01Z) - Operator Learning Using Random Features: A Tool for Scientific Computing [3.745868534225104]
教師付き演算子学習センターは、無限次元空間間のマップを推定するためにトレーニングデータを使用する。
本稿では,関数値のランダム特徴量法を提案する。
これは非線形問題に対して実用的な教師付き演算子学習アーキテクチャをもたらす。
論文 参考訳(メタデータ) (2024-08-12T23:10:39Z) - How Well Can Transformers Emulate In-context Newton's Method? [46.08521978754298]
線形回帰以外の高次最適化手法をトランスフォーマーで行うことができるかどうかを考察する。
2層のみの行列逆転に対するニュートンの反復の単一ステップの実装において、線形注意のみの変換器が可能であることを実証する。
論文 参考訳(メタデータ) (2024-03-05T18:20:10Z) - Understanding In-Context Learning in Transformers and LLMs by Learning
to Learn Discrete Functions [32.59746882017483]
本論文では,トランスフォーマーが一つのタスクを解くために2つの異なるアルゴリズムを実装することを学習できることを示す。
また,既存のLarge Language Models (LLMs) は,予測タスクにおいて最寄りのベースラインと競合することを示す。
論文 参考訳(メタデータ) (2023-10-04T17:57:33Z) - Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning [53.97335841137496]
非線形関数近似を用いたオフラインRLにおけるPNLSVI(Pessimistic Least-Square Value Iteration)と呼ばれるオラクル効率のアルゴリズムを提案する。
本アルゴリズムは,関数クラスの複雑性に強く依存する後悔境界を享受し,線形関数近似に特化して最小限のインスタンス依存後悔を実現する。
論文 参考訳(メタデータ) (2023-10-02T17:42:01Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - A Tutorial on Neural Networks and Gradient-free Training [0.0]
本稿では,自己完結型チュートリアル方式で,ニューラルネットワークのコンパクトな行列ベース表現を提案する。
ニューラルネットワークは数個のベクトル値関数を構成する数学的非線形関数である。
論文 参考訳(メタデータ) (2022-11-26T15:33:11Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Exploring Linear Feature Disentanglement For Neural Networks [63.20827189693117]
Sigmoid、ReLU、Tanhなどの非線形活性化関数は、ニューラルネットワーク(NN)において大きな成功を収めた。
サンプルの複雑な非線形特性のため、これらの活性化関数の目的は、元の特徴空間から線形分離可能な特徴空間へサンプルを投影することである。
この現象は、現在の典型的なNNにおいて、すべての特徴がすべての非線形関数によって変換される必要があるかどうかを探求することに興味をそそる。
論文 参考訳(メタデータ) (2022-03-22T13:09:17Z) - Parametric Rectified Power Sigmoid Units: Learning Nonlinear Neural
Transfer Analytical Forms [1.6975704972827304]
本稿では,線形畳み込み重みと非線形活性化関数のパラメトリック形式を共用する双対パラダイムの表現関数を提案する。
関数表現を実行するために提案された非線形形式は、整形パワーシグモイド単位と呼ばれる新しいパラメトリック神経伝達関数のクラスに関連付けられる。
浅層学習と深層学習の両フレームワークにおいて,畳み込み型および整流型シグモイド学習パラメータの連成学習により達成された性能を示す。
論文 参考訳(メタデータ) (2021-01-25T08:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。