論文の概要: Transformers are Universal In-context Learners
- arxiv url: http://arxiv.org/abs/2408.01367v2
- Date: Thu, 3 Oct 2024 02:43:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 13:18:17.178470
- Title: Transformers are Universal In-context Learners
- Title(参考訳): TransformerはUniversal In-context Learnerである
- Authors: Takashi Furuya, Maarten V. de Hoop, Gabriel Peyré,
- Abstract要約: 深層変換器は、コンパクトなトークン領域を均一に、任意の精度で連続的なコンテキスト内マッピングを近似できることを示す。
我々の結果の重要な側面は、既存の結果と比較して、固定精度では、単一変圧器が任意の(無限の)トークン数で動作可能であることである。
- 参考スコア(独自算出の注目度): 21.513210412394965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers are deep architectures that define "in-context mappings" which enable predicting new tokens based on a given set of tokens (such as a prompt in NLP applications or a set of patches for a vision transformer). In this work, we study in particular the ability of these architectures to handle an arbitrarily large number of context tokens. To mathematically, uniformly address their expressivity, we consider the case that the mappings are conditioned on a context represented by a probability distribution of tokens which becomes discrete for a finite number of these. The relevant notion of smoothness then corresponds to continuity in terms of the Wasserstein distance between these contexts. We demonstrate that deep transformers are universal and can approximate continuous in-context mappings to arbitrary precision, uniformly over compact token domains. A key aspect of our results, compared to existing findings, is that for a fixed precision, a single transformer can operate on an arbitrary (even infinite) number of tokens. Additionally, it operates with a fixed embedding dimension of tokens (this dimension does not increase with precision) and a fixed number of heads (proportional to the dimension). The use of MLPs between multi-head attention layers is also explicitly controlled. We consider both unmasked attentions (as used for the vision transformer) and masked causal attentions (as used for NLP and time series applications). We tackle the causal setting leveraging a space-time lifting to analyze causal attention as a mapping over probability distributions of tokens.
- Abstract(参考訳): トランスフォーマーは、与えられたトークンセット(NLPアプリケーションにおけるプロンプトやビジョントランスフォーマー用のパッチセットなど)に基づいて新しいトークンを予測できる「コンテキスト内マッピング」を定義するディープアーキテクチャである。
本研究では,これらのアーキテクチャが任意の数のコンテキストトークンを扱う能力について検討する。
数学的に、それらの表現性を均一に扱うために、これらの写像が有限個のトークンに対して離散となるトークンの確率分布で表される文脈で条件づけられている場合を考える。
関連した滑らかさの概念は、これらの文脈の間のワッサーシュタイン距離の観点からの連続性に対応する。
深層変圧器は普遍的であり、コンパクトなトークン領域に対して一様に、任意の精度で連続的な文脈内マッピングを近似できることを示す。
我々の結果の重要な側面は、既存の結果と比較して、固定精度では、単一変圧器が任意の(無限の)トークン数で動作可能であることである。
さらに、トークンの固定埋め込み次元(この次元は精度で増加しない)と固定数のヘッド(次元に比例する)で作用する。
マルチヘッドアテンション層間のMLPの使用も明示的に制御されている。
我々は、(視覚変換器として)マスキングされていない注意と(NLPや時系列の用途で使用される)因果注意の両方を考慮する。
トークンの確率分布のマッピングとして,時空リフトを利用して因果的注意を解析する因果的設定に取り組む。
関連論文リスト
- Next-token prediction capacity: general upper bounds and a lower bound for transformers [24.31928133575083]
本稿では,デコーダのみの変換器がコンテキストシーケンスに対して次トーケン分布を補間可能であることを示す。
暗記のための最小限のパラメータは、エントロピー下界へのモデルを訓練するのに十分であることを示す。
論文 参考訳(メタデータ) (2024-05-22T15:09:41Z) - Manifold-Preserving Transformers are Effective for Short-Long Range
Encoding [39.14128923434994]
マルチヘッドセルフアテンションベースのトランスフォーマーは、異なる学習タスクにおいて有望であることを示す。
本研究では,一対のトークン間の層間距離保存を理論的に保証するエンコーダモデルTransJectを提案する。
論文 参考訳(メタデータ) (2023-10-22T06:58:28Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Addressing Token Uniformity in Transformers via Singular Value
Transformation [24.039280291845706]
トークンの均一性は、変圧器ベースのモデルでよく見られる。
より歪んだ特異値分布はトークンの均一性の問題を軽減することができることを示す。
論文 参考訳(メタデータ) (2022-08-24T22:44:09Z) - Cost Aggregation with 4D Convolutional Swin Transformer for Few-Shot
Segmentation [58.4650849317274]
Volumetric Aggregation with Transformers (VAT)は、数ショットセグメンテーションのためのコスト集約ネットワークである。
VATは、コスト集約が中心的な役割を果たすセマンティック対応のための最先端のパフォーマンスも達成する。
論文 参考訳(メタデータ) (2022-07-22T04:10:30Z) - The Parallelism Tradeoff: Limitations of Log-Precision Transformers [29.716269397142973]
入力トークン数における算術精度が対数的である変換器は、定数深さの対数空間一様しきい値回路でシミュレートできることを示す。
これは、複雑性理論の既知の結果を用いた変圧器のパワーに関する洞察を与える。
論文 参考訳(メタデータ) (2022-07-02T03:49:34Z) - PSViT: Better Vision Transformer via Token Pooling and Attention Sharing [114.8051035856023]
トークンプーリングとアテンション共有を併用したPSViTを提案する。
実験の結果,提案手法は画像ネット分類の精度を最大6.6%向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-08-07T11:30:54Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - KVT: k-NN Attention for Boosting Vision Transformers [44.189475770152185]
我々は、視力変換器の強化を目的とした、k-NNアテンションと呼ばれるスパースアテンション方式を提案する。
提案したk-NNアテンションは、畳み込み操作を導入することなくCNNの局所バイアスを自然に継承する。
理論的にも経験的にも、$k$-NNの注意力は入力トークンからのノイズの蒸留やトレーニングの高速化に有効である。
論文 参考訳(メタデータ) (2021-05-28T06:49:10Z) - Rethinking Global Context in Crowd Counting [70.54184500538338]
純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。
分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
論文 参考訳(メタデータ) (2021-05-23T12:44:27Z) - Non-Autoregressive Machine Translation with Disentangled Context
Transformer [70.95181466892795]
最先端のニューラルネットワーク翻訳モデルは、左から右への翻訳を生成し、各ステップは以前に生成されたトークンに条件付けされる。
本研究では,異なるコンテキストのトークンを同時に生成するDisentangled Context (DisCo) 変換器を提案する。
本モデルでは,非自己回帰型機械翻訳技術と比較して性能が向上する一方,デコーディング時間の平均は大幅に減少する。
論文 参考訳(メタデータ) (2020-01-15T05:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。