論文の概要: Rethinking Attention with Performers
- arxiv url: http://arxiv.org/abs/2009.14794v3
- Date: Tue, 9 Mar 2021 16:26:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 22:15:29.084025
- Title: Rethinking Attention with Performers
- Title(参考訳): 出演者による注意の再考
- Authors: Krzysztof Choromanski, Valerii Likhosherstov, David Dohan, Xingyou
Song, Andreea Gane, Tamas Sarlos, Peter Hawkins, Jared Davis, Afroz
Mohiuddin, Lukasz Kaiser, David Belanger, Lucy Colwell, Adrian Weller
- Abstract要約: 本稿では,フルランクアテンション変換器を精度良く推定できるPerformer,Transformerアーキテクチャを提案する。
Performersは、スケーラブルなカーネルメソッドに対して独立した関心を持つ可能性のある、新しいFast Attention Via positive Orthogonal Random Feature approach (FAVOR+)を使用している。
提案手法は,他の研究手法と競合する結果を示し,Performers が活用する新しい注意学習パラダイムの有効性を示す。
- 参考スコア(独自算出の注目度): 45.47365397101224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Performers, Transformer architectures which can estimate regular
(softmax) full-rank-attention Transformers with provable accuracy, but using
only linear (as opposed to quadratic) space and time complexity, without
relying on any priors such as sparsity or low-rankness. To approximate softmax
attention-kernels, Performers use a novel Fast Attention Via positive
Orthogonal Random features approach (FAVOR+), which may be of independent
interest for scalable kernel methods. FAVOR+ can be also used to efficiently
model kernelizable attention mechanisms beyond softmax. This representational
power is crucial to accurately compare softmax with other kernels for the first
time on large-scale tasks, beyond the reach of regular Transformers, and
investigate optimal attention-kernels. Performers are linear architectures
fully compatible with regular Transformers and with strong theoretical
guarantees: unbiased or nearly-unbiased estimation of the attention matrix,
uniform convergence and low estimation variance. We tested Performers on a rich
set of tasks stretching from pixel-prediction through text models to protein
sequence modeling. We demonstrate competitive results with other examined
efficient sparse and dense attention methods, showcasing effectiveness of the
novel attention-learning paradigm leveraged by Performers.
- Abstract(参考訳): 本稿では,正規な(ソフトマックス)フルランク・トランスフォーマーを再現可能な精度で推定できるが,線形な(二次的な)空間と時間複雑性のみを使用して,スパルシリティや低ランク性といった事前条件に頼らずに推定できるトランスフォーマーアーキテクチャを紹介する。
ソフトマックスアテンションカーネルを近似するために、パフォーマーは、スケーラブルなカーネルメソッドに独立した関心を持つであろう正の直交ランダム特徴アプローチ(favor+)を介して、新しい高速アテンションを使用する。
FAVOR+は、ソフトマックスを超えて、カーネル化可能なアテンションメカニズムを効率的にモデル化するためにも使用できる。
この表現力は、大規模なタスクにおいて初めてsoftmaxと他のカーネルを正確に比較し、正規トランスフォーマーの到達範囲を超えて、最適な注意カーネルを調べるために重要である。
パフォーマーは、正規トランスフォーマーと完全に互換性があり、強い理論的保証を持つ線形アーキテクチャである: 注意行列の偏りや偏りのない推定、一様収束、そして低い推定分散。
我々は,ピクセル予測からテキストモデル,タンパク質配列モデリングまで,豊富なタスクでパフォーマーをテストした。
本研究は,実演者による新しい注意学習パラダイムの有効性を示すため,他の効率的な注意の分散・密集手法と競争結果を示す。
関連論文リスト
- Theory, Analysis, and Best Practices for Sigmoid Self-Attention [16.73166377436999]
我々は,シグモイドの注意を再考し,詳細な理論的および経験的分析を行う。
我々は,シグモイドに着目した変換器が普遍関数近似器であることを証明した。
ハードウェア・アウェアのFLASHSIGMOIDを導入し,Sigmoid attentionをメモリ効率で実装する。
論文 参考訳(メタデータ) (2024-09-06T17:53:26Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - SOFT: Softmax-free Transformer with Linear Complexity [112.9754491864247]
視覚変換器(ViT)は、パッチワイド画像トークン化と自己認識によって、様々な視覚認識タスクの最先端を推し進めている。
線形複雑度で自己注意を近似する様々な試みが自然言語処理で行われている。
これらの制限は、近似中にソフトマックスの自己注意を維持することに根ざしている。
ソフトマックスフリー変圧器(SOFT)を初めて提案する。
論文 参考訳(メタデータ) (2021-10-22T17:57:29Z) - Predicting Attention Sparsity in Transformers [0.9786690381850356]
本稿では, 遠心注意の空間パターンを計算前に同定するモデルであるスペーサーファインダーを提案する。
我々の研究は、予測された注目グラフの間隔とリコールの間のトレードオフを広範囲に分析することで、モデル効率を研究するための新しい角度を提供する。
論文 参考訳(メタデータ) (2021-09-24T20:51:21Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Random Feature Attention [69.4671822971207]
ソフトマックス関数を近似するためにランダム特徴法を用いる線形時間空間アテンション RFA を提案する。
RFAは、従来のソフトマックスアテンションのドロップイン代替として使用することができ、オプションのゲーティング機構を通じて、遅延バイアスで直接学習する方法を提供する。
言語モデリングと機械翻訳の実験は、RFAが強力なトランスのベースラインと類似またはより良いパフォーマンスを達成することを実証します。
論文 参考訳(メタデータ) (2021-03-03T02:48:56Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。