論文の概要: Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding
- arxiv url: http://arxiv.org/abs/2106.12566v1
- Date: Wed, 23 Jun 2021 17:51:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 15:36:03.080210
- Title: Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding
- Title(参考訳): 安定,高速,高精度:相対的位置エンコーディングによるカーネル化注意
- Authors: Shengjie Luo, Shanda Li, Tianle Cai, Di He, Dinglan Peng, Shuxin
Zheng, Guolin Ke, Liwei Wang, Tie-Yan Liu
- Abstract要約: 相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
- 参考スコア(独自算出の注目度): 63.539333383965726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The attention module, which is a crucial component in Transformer, cannot
scale efficiently to long sequences due to its quadratic complexity. Many works
focus on approximating the dot-then-exponentiate softmax function in the
original attention, leading to sub-quadratic or even linear-complexity
Transformer architectures. However, we show that these methods cannot be
applied to more powerful attention modules that go beyond the
dot-then-exponentiate style, e.g., Transformers with relative positional
encoding (RPE). Since in many state-of-the-art models, relative positional
encoding is used as default, designing efficient Transformers that can
incorporate RPE is appealing. In this paper, we propose a novel way to
accelerate attention calculation for Transformers with RPE on top of the
kernelized attention. Based upon the observation that relative positional
encoding forms a Toeplitz matrix, we mathematically show that kernelized
attention with RPE can be calculated efficiently using Fast Fourier Transform
(FFT). With FFT, our method achieves $\mathcal{O}(n\log n)$ time complexity.
Interestingly, we further demonstrate that properly using relative positional
encoding can mitigate the training instability problem of vanilla kernelized
attention. On a wide range of tasks, we empirically show that our models can be
trained from scratch without any optimization issues. The learned model
performs better than many efficient Transformer variants and is faster than
standard Transformer in the long-sequence regime.
- Abstract(参考訳): トランスフォーマーの重要な要素であるアテンションモジュールは、二次複雑性のため、長いシーケンスに対して効率的にスケールできない。
多くの作品は、元々の注意でドット指数のソフトマックス関数を近似することに焦点を当てており、サブクアドラティックあるいは線形複雑トランスフォーマーアーキテクチャへと繋がる。
しかし,これらの手法は,例えば相対位置符号化 (rpe) を用いたトランスフォーマなど,dot-then-exponentiate スタイルを超えて,より強力な注意モジュールには適用できないことを示す。
多くの最先端モデルでは、相対的な位置符号化がデフォルトとして使用されるため、RPEを組み込む効率的なトランスフォーマーを設計することは魅力的である。
本稿では、カーネル化された注目の上にRPEを持つトランスフォーマーの注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がtoeplitz行列を形成するという観測に基づいて,高速フーリエ変換(fft)を用いてrpeによるカーネル化注意を効率的に計算できることを数学的に示す。
FFTでは,時間複雑性を$\mathcal{O}(n\log n)$とする。
さらに, 相対的位置符号化を適切に使用することで, バニラ核化注意のトレーニング不安定性問題を軽減できることを示す。
幅広いタスクにおいて、最適化の問題なしにモデルをゼロからトレーニングできることを経験的に示します。
学習されたモデルは、多くの効率的なTransformer変種よりも優れた性能を示し、長周期の標準的なTransformerよりも高速である。
関連論文リスト
- PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - Functional Interpolation for Relative Positions Improves Long Context
Transformers [86.12843093589]
本稿では,より長いコンテキストに変換器の一般化を改善するために,プログレッシブなFIREを用いた関数的相対的位置符号化を提案する。
理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングのいくつかを表現できる。
FIREモデルは、ゼロショット言語モデリングと長文ベンチマークの両方において、より長い文脈での一般化がより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T17:59:11Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - FastRPB: a Scalable Relative Positional Encoding for Long Sequence Tasks [0.2538209532048867]
我々は,自己注意に位置情報を効率的に付加するFastRPBを紹介する。
FastRPB は O(N log(N)) の計算複雑性を持ち、O(N) メモリ w.r.t. 入力シーケンス長 N を必要とする。
論文 参考訳(メタデータ) (2022-02-23T09:12:00Z) - Transformer Acceleration with Dynamic Sparse Attention [20.758709319088865]
本稿では,トランスフォーマーの注意における動的間隔を効果的に活用する動的スパース注意(DSA)を提案する。
われわれのアプローチは、精度とモデルの複雑さのトレードオフを改善することができる。
論文 参考訳(メタデータ) (2021-10-21T17:31:57Z) - Fastformer: Additive Attention Can Be All You Need [51.79399904527525]
本稿では,加法的注意に基づく効率的なトランスフォーマーモデルであるFastformerを提案する。
Fastformerでは、トークン間のペアワイズインタラクションをモデル化する代わりに、まずグローバルコンテキストをモデル化するために追加アテンションメカニズムを使用します。
このように、Fastformerは線形複雑性を伴う効果的なコンテキストモデリングを実現することができる。
論文 参考訳(メタデータ) (2021-08-20T09:44:44Z) - Relative Positional Encoding for Transformers with Linear Complexity [30.48367640796256]
古典的なトランスフォーマーには、相対的位置符号化(RPE)が有用である。
RPEは、注意行列の明示的な計算を必要とするため、最近のTransformerの線形変種では利用できない。
本論文では,古典的添加剤(正弦波型)PEの代替として用いることができ,RPEのように振る舞うことができるPEの正確な生成方法について述べる。
論文 参考訳(メタデータ) (2021-05-18T09:52:32Z) - FNet: Mixing Tokens with Fourier Transforms [0.578717214982749]
Transformerエンコーダアーキテクチャは、限られた精度コストで大幅に高速化できることを示しています。
入力トークンを「混合」する単純な線形変換に自己着脱部分層を置き換える。
FNetと呼ばれる結果のモデルは、長い入力に対して非常に効率的にスケールします。
論文 参考訳(メタデータ) (2021-05-09T03:32:48Z) - Random Feature Attention [69.4671822971207]
ソフトマックス関数を近似するためにランダム特徴法を用いる線形時間空間アテンション RFA を提案する。
RFAは、従来のソフトマックスアテンションのドロップイン代替として使用することができ、オプションのゲーティング機構を通じて、遅延バイアスで直接学習する方法を提供する。
言語モデリングと機械翻訳の実験は、RFAが強力なトランスのベースラインと類似またはより良いパフォーマンスを達成することを実証します。
論文 参考訳(メタデータ) (2021-03-03T02:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。