論文の概要: Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection
- arxiv url: http://arxiv.org/abs/2306.04637v2
- Date: Thu, 6 Jul 2023 16:55:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 17:10:01.490312
- Title: Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection
- Title(参考訳): 統計学者としてのトランスフォーマー:in-contextアルゴリズム選択によるコンテキスト内学習の実現
- Authors: Yu Bai, Fan Chen, Huan Wang, Caiming Xiong, Song Mei
- Abstract要約: この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
- 参考スコア(独自算出の注目度): 88.23337313766353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural sequence models based on the transformer architecture have
demonstrated remarkable \emph{in-context learning} (ICL) abilities, where they
can perform new tasks when prompted with training and test examples, without
any parameter update to the model. This work first provides a comprehensive
statistical theory for transformers to perform ICL. Concretely, we show that
transformers can implement a broad class of standard machine learning
algorithms in context, such as least squares, ridge regression, Lasso, learning
generalized linear models, and gradient descent on two-layer neural networks,
with near-optimal predictive power on various in-context data distributions.
Using an efficient implementation of in-context gradient descent as the
underlying mechanism, our transformer constructions admit mild size bounds, and
can be learned with polynomially many pretraining sequences.
Building on these ``base'' ICL algorithms, intriguingly, we show that
transformers can implement more complex ICL procedures involving
\emph{in-context algorithm selection}, akin to what a statistician can do in
real life -- A \emph{single} transformer can adaptively select different base
ICL algorithms -- or even perform qualitatively different tasks -- on different
input sequences, without any explicit prompting of the right algorithm or task.
We both establish this in theory by explicit constructions, and also observe
this phenomenon experimentally. In theory, we construct two general mechanisms
for algorithm selection with concrete examples: pre-ICL testing, and post-ICL
validation. As an example, we use the post-ICL validation mechanism to
construct a transformer that can perform nearly Bayes-optimal ICL on a
challenging task -- noisy linear models with mixed noise levels.
Experimentally, we demonstrate the strong in-context algorithm selection
capabilities of standard transformer architectures.
- Abstract(参考訳): トランスフォーマーアーキテクチャに基づくニューラルシーケンスモデルでは、トレーニングやテスト例で新たなタスクを実行し、パラメータをモデルに更新することなく、注目すべき \emph{in-context learning} (icl)能力が実証されている。
この研究はまず、トランスフォーマーがiclを実行するための包括的な統計理論を提供する。
具体的には、最小二乗、リッジ回帰、ラッソ、学習一般化線形モデル、二層ニューラルネットワーク上の勾配勾配などの文脈において、様々なコンテキスト内データ分布にほぼ最適な予測力を持つ、幅広い機械学習アルゴリズムを実装できることを示す。
変換器の構成は,文脈内勾配勾配の効率的な実装を基礎として軽度サイズ境界を許容し,多項式的に多くの事前学習シーケンスで学習することができる。
これらの 'base'' の icl アルゴリズムに基づいて、興味深いことに、トランスフォーマーがより複雑な icl プロシージャを実装できることを示します。それは、統計学者が実生活でできることに似ています -- \emph{single} トランスフォーマーは、異なるベース icl アルゴリズムを適応的に選択できます -- あるいは、異なる入力シーケンス上で、正しいアルゴリズムやタスクを明示的にプロンプトすることなく、質的に異なるタスクを実行することができます。
我々は,この現象を明示的な構成によって理論的に確立し,実験的に観察する。
理論的には,事前iclテストとポストicl検証という2つのアルゴリズム選択機構を具体例で構築する。
例えば、ICL後検証機構を用いて、ノイズレベルが混在する雑音のある線形モデルにおいて、ベイズ最適ICLに近い動作が可能なトランスフォーマーを構築する。
実験により,標準トランスアーキテクチャの強いコンテキスト内アルゴリズム選択能力を示す。
関連論文リスト
- Training Nonlinear Transformers for Efficient In-Context Learning: A
Theoretical Learning and Generalization Analysis [88.52724320516342]
トランスフォーマーベースの大規模言語モデルは、いくつかの入力例でクエリを拡大するだけで、トレーニング済みのモデルが微調整なしで新しいタスクを処理できる、印象的なコンテキスト内学習機能を示した。
本稿では,トランスフォーマーの非線型自己注意と非線形活性化に起因するトレーニング問題の最適理論的解析を行う。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - In-Context Learning for MIMO Equalization Using Transformer-Based
Sequence Models [44.161789477821536]
大規模な事前学習シーケンスモデルには、コンテキスト内学習(ICL)を実行する能力がある
ICLでは、新しい入力に関する決定は、入力の直接マッピングと与えられたタスクからのいくつかの例を通して行われる。
我々は,変圧器をベースとしたICLのしきい値挙動を数値計算により示す。
論文 参考訳(メタデータ) (2023-11-10T15:09:04Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Transformers as Decision Makers: Provable In-Context Reinforcement
Learning via Supervised Pretraining [28.849426869288255]
本稿では,テキスト内強化学習のための教師付き事前学習を理論的に分析する枠組みを提案する。
ReLUに着目した変換器は、最適に近いオンライン強化学習アルゴリズムを効率的に近似できることを示す。
論文 参考訳(メタデータ) (2023-10-12T17:55:02Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Transformers as Algorithms: Generalization and Implicit Model Selection
in In-context Learning [23.677503557659705]
In-context Learning (ICL) は、トランスフォーマーモデルが一連の例で動作し、オンザフライで推論を行うプロンプトの一種である。
我々は,このトランスモデルを学習アルゴリズムとして扱い,推論時別のターゲットアルゴリズムを実装するためのトレーニングを通じて専門化することができる。
変換器は適応学習アルゴリズムとして機能し、異なる仮説クラス間でモデル選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-17T18:31:12Z) - I-BERT: Inductive Generalization of Transformer to Arbitrary Context
Lengths [2.604653544948958]
自己注意は、自然言語処理のための最先端のシーケンス・ツー・シーケンスモデルの重要な構成要素として現れてきた。
位置エンコーディングをリカレント層に置き換える双方向トランスであるI-BERTを提案する。
論文 参考訳(メタデータ) (2020-06-18T00:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。