論文の概要: Random Feature Attention
- arxiv url: http://arxiv.org/abs/2103.02143v1
- Date: Wed, 3 Mar 2021 02:48:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-07 03:47:03.558698
- Title: Random Feature Attention
- Title(参考訳): ランダム特徴の注意
- Authors: Hao Peng, Nikolaos Pappas, Dani Yogatama, Roy Schwartz, Noah A. Smith,
Lingpeng Kong
- Abstract要約: ソフトマックス関数を近似するためにランダム特徴法を用いる線形時間空間アテンション RFA を提案する。
RFAは、従来のソフトマックスアテンションのドロップイン代替として使用することができ、オプションのゲーティング機構を通じて、遅延バイアスで直接学習する方法を提供する。
言語モデリングと機械翻訳の実験は、RFAが強力なトランスのベースラインと類似またはより良いパフォーマンスを達成することを実証します。
- 参考スコア(独自算出の注目度): 69.4671822971207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers are state-of-the-art models for a variety of sequence modeling
tasks. At their core is an attention function which models pairwise
interactions between the inputs at every timestep. While attention is powerful,
it does not scale efficiently to long sequences due to its quadratic time and
space complexity in the sequence length. We propose RFA, a linear time and
space attention that uses random feature methods to approximate the softmax
function, and explore its application in transformers. RFA can be used as a
drop-in replacement for conventional softmax attention and offers a
straightforward way of learning with recency bias through an optional gating
mechanism. Experiments on language modeling and machine translation demonstrate
that RFA achieves similar or better performance compared to strong transformer
baselines. In the machine translation experiment, RFA decodes twice as fast as
a vanilla transformer. Compared to existing efficient transformer variants, RFA
is competitive in terms of both accuracy and efficiency on three long text
classification datasets. Our analysis shows that RFA's efficiency gains are
especially notable on long sequences, suggesting that RFA will be particularly
useful in tasks that require working with large inputs, fast decoding speed, or
low memory footprints.
- Abstract(参考訳): トランスフォーマーは、様々なシーケンスモデリングタスクのための最先端モデルである。
中心となるアテンション関数は、各タイミングで入力間のペアワイズ相互作用をモデル化する。
注意力は強いが、二次時間と列長の空間複雑性のため、長い列に対して効率的にスケールしない。
ソフトマックス関数を近似するためにランダム特徴法を用いた線形時間空間注意法 RFA を提案し,その変圧器への応用について検討する。
RFAは、従来のソフトマックスアテンションのドロップイン代替として使用することができ、オプションのゲーティング機構を通じて、遅延バイアスで直接学習する方法を提供する。
言語モデリングと機械翻訳の実験は、RFAが強力なトランスのベースラインと類似またはより良いパフォーマンスを達成することを実証します。
機械翻訳実験では、RFAはバニラ変圧器の2倍の速度で復号する。
既存の効率的な変圧器の変種と比較して、RFAは3つの長文分類データセットの精度と効率の両面で競合する。
分析の結果,RFAの効率向上は特に長いシーケンスで顕著であり,大きな入力や高速復号化速度,メモリフットプリントの低いタスクでは特に有効であることが示唆された。
関連論文リスト
- Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - Functional Interpolation for Relative Positions Improves Long Context
Transformers [86.12843093589]
本稿では,より長いコンテキストに変換器の一般化を改善するために,プログレッシブなFIREを用いた関数的相対的位置符号化を提案する。
理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングのいくつかを表現できる。
FIREモデルは、ゼロショット言語モデリングと長文ベンチマークの両方において、より長い文脈での一般化がより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T17:59:11Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - Diffuser: Efficient Transformers with Multi-hop Attention Diffusion for
Long Sequences [16.066338004414092]
textitDiffuserはシーケンシャル・ツー・シーケンス・モデリングのための新しい効率的なトランスフォーマーである。
低い計算とメモリコストを維持しながら、すべてのトークンインタラクションを1つの注意層に組み込む。
スペクトルの観点からグラフ展開特性を解析することにより、全アテンションを近似する能力を示す。
論文 参考訳(メタデータ) (2022-10-21T08:13:34Z) - FastRPB: a Scalable Relative Positional Encoding for Long Sequence Tasks [0.2538209532048867]
我々は,自己注意に位置情報を効率的に付加するFastRPBを紹介する。
FastRPB は O(N log(N)) の計算複雑性を持ち、O(N) メモリ w.r.t. 入力シーケンス長 N を必要とする。
論文 参考訳(メタデータ) (2022-02-23T09:12:00Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Informer: Beyond Efficient Transformer for Long Sequence Time-Series
Forecasting [25.417560221400347]
長周期時系列予測(LSTF)は高い予測能力を必要とする。
最近の研究は、予測能力を高めるトランスフォーマーの可能性を示しています。
我々は3つの特徴を有するlstf用効率的なトランスフォーマーモデル,informerを設計した。
論文 参考訳(メタデータ) (2020-12-14T11:43:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。