論文の概要: Towards Understanding the Universality of Transformers for Next-Token Prediction
- arxiv url: http://arxiv.org/abs/2410.03011v1
- Date: Thu, 3 Oct 2024 21:42:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 04:25:56.121716
- Title: Towards Understanding the Universality of Transformers for Next-Token Prediction
- Title(参考訳): 次世代予測のための変圧器の普遍性理解に向けて
- Authors: Michael E. Sander, Gabriel Peyré,
- Abstract要約: 因果変換器は、与えられたコンテキストに対して次のトークンを予測するように訓練される。
我々は,この現象を次々に予測するトランスフォーマーの近似能力について研究することで理解する。
- 参考スコア(独自算出の注目度): 20.300660057193017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Causal Transformers are trained to predict the next token for a given context. While it is widely accepted that self-attention is crucial for encoding the causal structure of sequences, the precise underlying mechanism behind this in-context autoregressive learning ability remains unclear. In this paper, we take a step towards understanding this phenomenon by studying the approximation ability of Transformers for next-token prediction. Specifically, we explore the capacity of causal Transformers to predict the next token $x_{t+1}$ given an autoregressive sequence $(x_1, \dots, x_t)$ as a prompt, where $ x_{t+1} = f(x_t) $, and $ f $ is a context-dependent function that varies with each sequence. On the theoretical side, we focus on specific instances, namely when $ f $ is linear or when $ (x_t)_{t \geq 1} $ is periodic. We explicitly construct a Transformer (with linear, exponential, or softmax attention) that learns the mapping $f$ in-context through a causal kernel descent method. The causal kernel descent method we propose provably estimates $x_{t+1} $ based solely on past and current observations $ (x_1, \dots, x_t) $, with connections to the Kaczmarz algorithm in Hilbert spaces. We present experimental results that validate our theoretical findings and suggest their applicability to more general mappings $f$.
- Abstract(参考訳): 因果変換器は、与えられたコンテキストに対して次のトークンを予測するように訓練される。
配列の因果構造を符号化するには自己注意が不可欠であると広く受け入れられているが、この文脈内自己回帰学習能力の背後にある正確なメカニズムはいまだ不明である。
本稿では,この現象の理解に向けて,次世代予測のための変換器の近似能力について検討する。
具体的には、因果変換器のキャパシティを調べ、次のトークン$x_{t+1}$に自動回帰シーケンス$(x_1, \dots, x_t)$をプロンプトとして与え、$x_{t+1} = f(x_t)$, $ f $は各シーケンスに応じて変化するコンテキスト依存関数である。
理論的には、$ f $ が線型であるときや $ (x_t)_{t \geq 1} $ が周期的であるときなど、特定のインスタンスに焦点を当てる。
我々は、因果的カーネル降下法を用いて、写像$f$ in-contextを学習するトランスフォーマー(線形、指数関数、ソフトマックスの注意を伴う)を明示的に構築する。
提案する因果的カーネル降下法は,過去と現在の観測結果のみに基づく$x_{t+1} $を,ヒルベルト空間のKaczmarzアルゴリズムに接続した$ (x_1, \dots, x_t) $と推定可能である。
理論的知見を検証し、より一般的な写像への適用性を示唆する実験結果を示す。
関連論文リスト
- IT$^3$: Idempotent Test-Time Training [95.78053599609044]
本稿では,分散シフトの課題に対処する新しいアプローチであるIdempotent Test-Time Training (IT$3$)を紹介する。
IT$3$は、イデオロジェンスの普遍性に基づいている。
画像分類の劣化など,様々なタスクにまたがるアプローチの汎用性を実証する。
論文 参考訳(メタデータ) (2024-10-05T15:39:51Z) - Transformer In-Context Learning for Categorical Data [51.23121284812406]
我々は、分類結果、非線形基礎モデル、非線形注意を考慮し、文脈内学習のレンズを通してトランスフォーマーを理解する研究を機能データで拡張する。
我々は、ImageNetデータセットを用いて、この数発の学習方法論の最初の実世界の実演であると考えられるものを提示する。
論文 参考訳(メタデータ) (2024-05-27T15:03:21Z) - Conv-Basis: A New Paradigm for Efficient Attention Inference and Gradient Computation in Transformers [16.046186753149]
最近のLarge Language Models(LLM)におけるトランスフォーマーの成功の鍵は自己認識メカニズムである
我々は、注目行列の畳み込み様構造を利用して、畳み込み行列を用いた注目の効率的な近似法を開発する。
トランスフォーマーモデルにおけるアテンション計算を加速するための新しいパラダイムが、より長いコンテキストへのアプリケーションを支援することを願っています。
論文 参考訳(メタデータ) (2024-05-08T17:11:38Z) - How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - How to Capture Higher-order Correlations? Generalizing Matrix Softmax
Attention to Kronecker Computation [12.853829771559916]
本稿では,三重相関を捉える注意の一般化について検討する。
この一般化は、変圧器では不可能であった三重結合の検出に関する問題を解くことができる。
構築, アルゴリズム, 下位境界が自然に高次テンソルや相関に一般化されることが示される。
論文 参考訳(メタデータ) (2023-10-06T07:42:39Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Misspecified Phase Retrieval with Generative Priors [15.134280834597865]
単一のインデックスモデル $y の $m$ i.d.realization から$n$-dimensional signal $mathbfx$ を推定する。
どちらのステップも、適切な条件下では、$sqrt(klog L)cdot (log m)/m$の統計的レートを享受できることが示される。
論文 参考訳(メタデータ) (2022-10-11T16:04:11Z) - Linear Time Sinkhorn Divergences using Positive Features [51.50788603386766]
エントロピー正則化で最適な輸送を解くには、ベクトルに繰り返し適用される$ntimes n$ kernel matrixを計算する必要がある。
代わりに、$c(x,y)=-logdotpvarphi(x)varphi(y)$ ここで$varphi$は、地上空間から正のorthant $RRr_+$への写像であり、$rll n$である。
論文 参考訳(メタデータ) (2020-06-12T10:21:40Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。