論文の概要: Transformers Implement Functional Gradient Descent to Learn Non-Linear
Functions In Context
- arxiv url: http://arxiv.org/abs/2312.06528v3
- Date: Tue, 26 Dec 2023 21:20:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 21:20:30.594754
- Title: Transformers Implement Functional Gradient Descent to Learn Non-Linear
Functions In Context
- Title(参考訳): 非Linear関数を文脈で学習するトランスフォーマーによる機能的グラディエントDescentの実現
- Authors: Xiang Cheng, Yuxin Chen, Suvrit Sra
- Abstract要約: 非線形変換器は、文脈内で非線形関数を学習するための学習アルゴリズムを実装することができることを示す。
非線形アクティベーションの最適選択は、学習課題の非線形性に依存していることを示す。
- 参考スコア(独自算出の注目度): 50.518987580237955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many neural network architectures have been shown to be Turing Complete, and
can thus implement arbitrary algorithms. However, Transformers are unique in
that they can implement gradient-based learning algorithms \emph{under simple
parameter configurations}. A line of recent work shows that linear Transformers
naturally learn to implement gradient descent (GD) when trained on a linear
regression in-context learning task. But the linearity assumption (either in
the Transformer architecture or in the learning task) is far from realistic
settings where non-linear activations crucially enable Transformers to learn
complicated non-linear functions. In this paper, we provide theoretical and
empirical evidence that non-linear Transformers can, and \emph{in fact do},
learn to implement learning algorithms to learn non-linear functions in
context. Our results apply to a broad class of combinations of non-linear
architectures, and non-linear in-context learning tasks. Interestingly, we show
that the optimal choice of non-linear activation depends in a natural way on
the non-linearity of the learning task.
- Abstract(参考訳): 多くのニューラルネットワークアーキテクチャがチューリング完全であることが示されており、任意のアルゴリズムを実装することができる。
しかし、トランスフォーマーは勾配に基づく学習アルゴリズム \emph{under simple parameter configurations} を実装できるという点でユニークである。
最近の一連の研究は、線形回帰学習タスクで訓練された場合、線形変圧器は自然に勾配降下(gd)を実装することを学ぶことを示している。
しかし、線形性仮定(トランスフォーマーアーキテクチャや学習タスクの場合)は、非線形アクティベーションがトランスフォーマーが複雑な非線形関数を学べるような現実的な設定とは程遠い。
本稿では,非線形トランスフォーマーが,文脈で非線形関数を学習するための学習アルゴリズムの実装を学習できることを理論的,実証的に証明する。
この結果は非線形アーキテクチャと非線形インコンテキスト学習タスクの幅広い組み合わせに適用できる。
興味深いことに、非線形活性化の最適選択は、学習課題の非線形性に依存している。
関連論文リスト
- Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。
線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。
我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文 参考訳(メタデータ) (2024-10-14T02:41:01Z) - Operator Learning Using Random Features: A Tool for Scientific Computing [3.745868534225104]
教師付き演算子学習センターは、無限次元空間間のマップを推定するためにトレーニングデータを使用する。
本稿では,関数値のランダム特徴量法を提案する。
これは非線形問題に対して実用的な教師付き演算子学習アーキテクチャをもたらす。
論文 参考訳(メタデータ) (2024-08-12T23:10:39Z) - How Well Can Transformers Emulate In-context Newton's Method? [46.08521978754298]
線形回帰以外の高次最適化手法をトランスフォーマーで行うことができるかどうかを考察する。
2層のみの行列逆転に対するニュートンの反復の単一ステップの実装において、線形注意のみの変換器が可能であることを実証する。
論文 参考訳(メタデータ) (2024-03-05T18:20:10Z) - Understanding In-Context Learning in Transformers and LLMs by Learning
to Learn Discrete Functions [32.59746882017483]
本論文では,トランスフォーマーが一つのタスクを解くために2つの異なるアルゴリズムを実装することを学習できることを示す。
また,既存のLarge Language Models (LLMs) は,予測タスクにおいて最寄りのベースラインと競合することを示す。
論文 参考訳(メタデータ) (2023-10-04T17:57:33Z) - Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning [53.97335841137496]
非線形関数近似を用いたオフラインRLにおけるPNLSVI(Pessimistic Least-Square Value Iteration)と呼ばれるオラクル効率のアルゴリズムを提案する。
本アルゴリズムは,関数クラスの複雑性に強く依存する後悔境界を享受し,線形関数近似に特化して最小限のインスタンス依存後悔を実現する。
論文 参考訳(メタデータ) (2023-10-02T17:42:01Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - A Tutorial on Neural Networks and Gradient-free Training [0.0]
本稿では,自己完結型チュートリアル方式で,ニューラルネットワークのコンパクトな行列ベース表現を提案する。
ニューラルネットワークは数個のベクトル値関数を構成する数学的非線形関数である。
論文 参考訳(メタデータ) (2022-11-26T15:33:11Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Exploring Linear Feature Disentanglement For Neural Networks [63.20827189693117]
Sigmoid、ReLU、Tanhなどの非線形活性化関数は、ニューラルネットワーク(NN)において大きな成功を収めた。
サンプルの複雑な非線形特性のため、これらの活性化関数の目的は、元の特徴空間から線形分離可能な特徴空間へサンプルを投影することである。
この現象は、現在の典型的なNNにおいて、すべての特徴がすべての非線形関数によって変換される必要があるかどうかを探求することに興味をそそる。
論文 参考訳(メタデータ) (2022-03-22T13:09:17Z) - Parametric Rectified Power Sigmoid Units: Learning Nonlinear Neural
Transfer Analytical Forms [1.6975704972827304]
本稿では,線形畳み込み重みと非線形活性化関数のパラメトリック形式を共用する双対パラダイムの表現関数を提案する。
関数表現を実行するために提案された非線形形式は、整形パワーシグモイド単位と呼ばれる新しいパラメトリック神経伝達関数のクラスに関連付けられる。
浅層学習と深層学習の両フレームワークにおいて,畳み込み型および整流型シグモイド学習パラメータの連成学習により達成された性能を示す。
論文 参考訳(メタデータ) (2021-01-25T08:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。