論文の概要: Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection
- arxiv url: http://arxiv.org/abs/2306.04637v2
- Date: Thu, 6 Jul 2023 16:55:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 17:10:01.490312
- Title: Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection
- Title(参考訳): 統計学者としてのトランスフォーマー:in-contextアルゴリズム選択によるコンテキスト内学習の実現
- Authors: Yu Bai, Fan Chen, Huan Wang, Caiming Xiong, Song Mei
- Abstract要約: この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
- 参考スコア(独自算出の注目度): 88.23337313766353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural sequence models based on the transformer architecture have
demonstrated remarkable \emph{in-context learning} (ICL) abilities, where they
can perform new tasks when prompted with training and test examples, without
any parameter update to the model. This work first provides a comprehensive
statistical theory for transformers to perform ICL. Concretely, we show that
transformers can implement a broad class of standard machine learning
algorithms in context, such as least squares, ridge regression, Lasso, learning
generalized linear models, and gradient descent on two-layer neural networks,
with near-optimal predictive power on various in-context data distributions.
Using an efficient implementation of in-context gradient descent as the
underlying mechanism, our transformer constructions admit mild size bounds, and
can be learned with polynomially many pretraining sequences.
Building on these ``base'' ICL algorithms, intriguingly, we show that
transformers can implement more complex ICL procedures involving
\emph{in-context algorithm selection}, akin to what a statistician can do in
real life -- A \emph{single} transformer can adaptively select different base
ICL algorithms -- or even perform qualitatively different tasks -- on different
input sequences, without any explicit prompting of the right algorithm or task.
We both establish this in theory by explicit constructions, and also observe
this phenomenon experimentally. In theory, we construct two general mechanisms
for algorithm selection with concrete examples: pre-ICL testing, and post-ICL
validation. As an example, we use the post-ICL validation mechanism to
construct a transformer that can perform nearly Bayes-optimal ICL on a
challenging task -- noisy linear models with mixed noise levels.
Experimentally, we demonstrate the strong in-context algorithm selection
capabilities of standard transformer architectures.
- Abstract(参考訳): トランスフォーマーアーキテクチャに基づくニューラルシーケンスモデルでは、トレーニングやテスト例で新たなタスクを実行し、パラメータをモデルに更新することなく、注目すべき \emph{in-context learning} (icl)能力が実証されている。
この研究はまず、トランスフォーマーがiclを実行するための包括的な統計理論を提供する。
具体的には、最小二乗、リッジ回帰、ラッソ、学習一般化線形モデル、二層ニューラルネットワーク上の勾配勾配などの文脈において、様々なコンテキスト内データ分布にほぼ最適な予測力を持つ、幅広い機械学習アルゴリズムを実装できることを示す。
変換器の構成は,文脈内勾配勾配の効率的な実装を基礎として軽度サイズ境界を許容し,多項式的に多くの事前学習シーケンスで学習することができる。
これらの 'base'' の icl アルゴリズムに基づいて、興味深いことに、トランスフォーマーがより複雑な icl プロシージャを実装できることを示します。それは、統計学者が実生活でできることに似ています -- \emph{single} トランスフォーマーは、異なるベース icl アルゴリズムを適応的に選択できます -- あるいは、異なる入力シーケンス上で、正しいアルゴリズムやタスクを明示的にプロンプトすることなく、質的に異なるタスクを実行することができます。
我々は,この現象を明示的な構成によって理論的に確立し,実験的に観察する。
理論的には,事前iclテストとポストicl検証という2つのアルゴリズム選択機構を具体例で構築する。
例えば、ICL後検証機構を用いて、ノイズレベルが混在する雑音のある線形モデルにおいて、ベイズ最適ICLに近い動作が可能なトランスフォーマーを構築する。
実験により,標準トランスアーキテクチャの強いコンテキスト内アルゴリズム選択能力を示す。
関連論文リスト
- On the Learn-to-Optimize Capabilities of Transformers in In-Context Sparse Recovery [15.164710897163099]
K層変換器は, 証明可能な収束率を持つL2OアルゴリズムをK層に線形に実行可能であることを示す。
従来のL2Oアルゴリズムとは違って、トレーニングにおいて測定行列に一致させる必要があるが、トレーニングされたTransformerは、異なる測定行列で生成されたスパースリカバリ問題を解くことができる。
論文 参考訳(メタデータ) (2024-10-17T19:18:28Z) - Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。
線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。
我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文 参考訳(メタデータ) (2024-10-14T02:41:01Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - In-Context Learning for MIMO Equalization Using Transformer-Based
Sequence Models [44.161789477821536]
大規模な事前学習シーケンスモデルには、コンテキスト内学習(ICL)を実行する能力がある
ICLでは、新しい入力に関する決定は、入力の直接マッピングと与えられたタスクからのいくつかの例を通して行われる。
我々は,変圧器をベースとしたICLのしきい値挙動を数値計算により示す。
論文 参考訳(メタデータ) (2023-11-10T15:09:04Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining [25.669038513039357]
本稿では,テキスト内強化学習のための教師付き事前学習を理論的に分析する枠組みを提案する。
ReLUに着目した変換器は、最適に近いオンライン強化学習アルゴリズムを効率的に近似できることを示す。
論文 参考訳(メタデータ) (2023-10-12T17:55:02Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Transformers as Algorithms: Generalization and Implicit Model Selection
in In-context Learning [23.677503557659705]
In-context Learning (ICL) は、トランスフォーマーモデルが一連の例で動作し、オンザフライで推論を行うプロンプトの一種である。
我々は,このトランスモデルを学習アルゴリズムとして扱い,推論時別のターゲットアルゴリズムを実装するためのトレーニングを通じて専門化することができる。
変換器は適応学習アルゴリズムとして機能し、異なる仮説クラス間でモデル選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-17T18:31:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。