論文の概要: Relative Positional Encoding for Transformers with Linear Complexity
- arxiv url: http://arxiv.org/abs/2105.08399v1
- Date: Tue, 18 May 2021 09:52:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 14:17:15.371490
- Title: Relative Positional Encoding for Transformers with Linear Complexity
- Title(参考訳): 線形複雑度を有する変圧器の相対位置符号化
- Authors: Antoine Liutkus, Ond\v{r}ej C\'ifka, Shih-Lun Wu, Umut
\c{S}im\c{s}ekli, Yi-Hsuan Yang, Ga\"el Richard
- Abstract要約: 古典的なトランスフォーマーには、相対的位置符号化(RPE)が有用である。
RPEは、注意行列の明示的な計算を必要とするため、最近のTransformerの線形変種では利用できない。
本論文では,古典的添加剤(正弦波型)PEの代替として用いることができ,RPEのように振る舞うことができるPEの正確な生成方法について述べる。
- 参考スコア(独自算出の注目度): 30.48367640796256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Transformer models allow for unprecedented sequence
lengths, due to linear space and time complexity. In the meantime, relative
positional encoding (RPE) was proposed as beneficial for classical Transformers
and consists in exploiting lags instead of absolute positions for inference.
Still, RPE is not available for the recent linear-variants of the Transformer,
because it requires the explicit computation of the attention matrix, which is
precisely what is avoided by such methods. In this paper, we bridge this gap
and present Stochastic Positional Encoding as a way to generate PE that can be
used as a replacement to the classical additive (sinusoidal) PE and provably
behaves like RPE. The main theoretical contribution is to make a connection
between positional encoding and cross-covariance structures of correlated
Gaussian processes. We illustrate the performance of our approach on the
Long-Range Arena benchmark and on music generation.
- Abstract(参考訳): トランスフォーマーモデルの最近の進歩は、線形空間と時間複雑さのために、前例のないシーケンス長を許容している。
一方、相対位置符号化 (relative positional encoding, rpe) は古典的トランスフォーマーにとって有益であり、推論のための絶対位置ではなくラグを利用する。
しかし、最近のトランスフォーマーの線形変種には RPE が利用できないのは、注意行列の明示的な計算を必要とするためである。
本稿では,このギャップを埋めて,古典的な付加形(正弦波)PEの代替として使用でき,RPEのように確実に振る舞うPEを生成する方法として,確率的位置エンコーディングを提案する。
主な理論的貢献は、位置符号化と相関したガウス過程の相互共分散構造を関連付けることである。
本稿では,Long-Range Arenaベンチマークと音楽生成におけるアプローチの性能について述べる。
関連論文リスト
- HyPE: Attention with Hyperbolic Biases for Relative Positional Encoding [0.0]
Transformerベースのアーキテクチャでは、アテンション機構は入力シーケンスのトークンに関して本質的に置換不変である。
本稿では,双曲関数の特性を利用してトークンの相対位置を符号化する新しい手法である,双曲的位置注意(HyPE)を紹介する。
論文 参考訳(メタデータ) (2023-10-30T15:54:32Z) - Functional Interpolation for Relative Positions Improves Long Context
Transformers [86.12843093589]
本稿では,より長いコンテキストに変換器の一般化を改善するために,プログレッシブなFIREを用いた関数的相対的位置符号化を提案する。
理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングのいくつかを表現できる。
FIREモデルは、ゼロショット言語モデリングと長文ベンチマークの両方において、より長い文脈での一般化がより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T17:59:11Z) - Linearized Relative Positional Encoding [43.898057545832366]
相対的な位置符号化は、位置情報を表すためにバニラや線形変換器で広く使われている。
従来の線形相対的位置符号化手法を正準形式にまとめる。
さらに,一元変換を用いた線形相対的位置符号化アルゴリズムのファミリを提案する。
論文 参考訳(メタデータ) (2023-07-18T13:56:43Z) - The Impact of Positional Encoding on Length Generalization in
Transformers [50.48278691801413]
復号器のみの変圧器長一般化性能と5つの異なる位置符号化手法との比較を行った。
その結果,ALiBi,Rotary,APEなどの位置符号化法は,下流タスクにおける長さ一般化には適していないことがわかった。
論文 参考訳(メタデータ) (2023-05-31T00:29:55Z) - Learning a Fourier Transform for Linear Relative Positional Encodings in Transformers [71.32827362323205]
我々はLearner-Transformer (Learners)と呼ばれる線形変換器の新しいクラスを提案する。
様々な相対的位置エンコーディング機構(RPE)を組み込んでいる。
これらには、シーケンシャルデータに適用される正規の RPE 技術や、高次元ユークリッド空間に埋め込まれた幾何学的データを操作する新しい RPE などが含まれる。
論文 参考訳(メタデータ) (2023-02-03T18:57:17Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Random Feature Attention [69.4671822971207]
ソフトマックス関数を近似するためにランダム特徴法を用いる線形時間空間アテンション RFA を提案する。
RFAは、従来のソフトマックスアテンションのドロップイン代替として使用することができ、オプションのゲーティング機構を通じて、遅延バイアスで直接学習する方法を提供する。
言語モデリングと機械翻訳の実験は、RFAが強力なトランスのベースラインと類似またはより良いパフォーマンスを達成することを実証します。
論文 参考訳(メタデータ) (2021-03-03T02:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。