論文の概要: Fastformer: Additive Attention is All You Need
- arxiv url: http://arxiv.org/abs/2108.09084v1
- Date: Fri, 20 Aug 2021 09:44:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-23 20:22:40.963511
- Title: Fastformer: Additive Attention is All You Need
- Title(参考訳): Fastformer: 追加アテンションは必要なだけ
- Authors: Chuhan Wu, Fangzhao Wu, Tao Qi, Yongfeng Huang
- Abstract要約: 本稿では,加法的注意に基づく効率的なトランスフォーマーモデルであるFastformerを提案する。
Fastformerでは、トークン間のペアワイズインタラクションをモデル化する代わりに、まずグローバルコンテキストをモデル化するために追加アテンションメカニズムを使用します。
このように、Fastformerは線形複雑性を伴う効果的なコンテキストモデリングを実現することができる。
- 参考スコア(独自算出の注目度): 51.79399904527525
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Transformer is a powerful model for text understanding. However, it is
inefficient due to its quadratic complexity to input sequence length. Although
there are many methods on Transformer acceleration, they are still either
inefficient on long sequences or not effective enough. In this paper, we
propose Fastformer, which is an efficient Transformer model based on additive
attention. In Fastformer, instead of modeling the pair-wise interactions
between tokens, we first use additive attention mechanism to model global
contexts, and then further transform each token representation based on its
interaction with global context representations. In this way, Fastformer can
achieve effective context modeling with linear complexity. Extensive
experiments on five datasets show that Fastformer is much more efficient than
many existing Transformer models and can meanwhile achieve comparable or even
better long text modeling performance.
- Abstract(参考訳): Transformerは、テキスト理解のための強力なモデルである。
しかし、入力シーケンス長の2次複雑さのため、非効率である。
変圧器の加速には多くの方法があるが、長いシーケンスでは効率が悪いか、十分に効果的ではない。
本稿では,付加的注意に基づく効率的な変圧器モデルであるfastformerを提案する。
Fastformerでは、トークン間のペアワイズ相互作用をモデル化する代わりに、まずグローバルコンテキストをモデル化するために追加アテンション機構を使用し、さらにグローバルコンテキスト表現との相互作用に基づいて各トークン表現を変換する。
このように、fastformerは線形複雑性を伴う効果的なコンテキストモデリングを実現することができる。
5つのデータセットに関する広範囲な実験により、fastformerは既存の多くのトランスフォーマーモデルよりもはるかに効率的であり、同時に、同等あるいはそれ以上の長いテキストモデリング性能を達成することができる。
関連論文リスト
- Fast-StrucTexT: An Efficient Hourglass Transformer with Modality-guided
Dynamic Token Merge for Document Understanding [40.322453628755376]
一般的な効率的な変換器は、直接モデル文書に適合させることが困難である。
Fast-StrucTexTは、時間ガラストランスアーキテクチャを備えたStrucTexTアルゴリズムに基づく効率的なマルチモーダルフレームワークである。
提案モデルでは,最先端の手法よりも約1.9倍高速な推論時間を実現する。
論文 参考訳(メタデータ) (2023-05-19T02:42:35Z) - Linearizing Transformer with Key-Value Memory Bank [54.83663647680612]
我々は、ソースシーケンスを低次元表現に投影するアプローチであるMemSizerを提案する。
MemSizerは同じ線形時間複雑性を達成するだけでなく、効率的なリカレントスタイルの自己回帰生成も楽しめる。
我々はMemSizerがバニラ変圧器の効率と精度のトレードオフを改善することを実証した。
論文 参考訳(メタデータ) (2022-03-23T18:10:18Z) - Transformer-F: A Transformer network with effective methods for learning
universal sentence representation [8.225067988604351]
Transformerモデルは、自然言語処理で文表現に広く使われている。
本稿では,トランスフォーマーの性能向上のための2つの手法を提案する。
論文 参考訳(メタデータ) (2021-07-02T03:20:11Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - FNet: Mixing Tokens with Fourier Transforms [0.578717214982749]
Transformerエンコーダアーキテクチャは、限られた精度コストで大幅に高速化できることを示しています。
入力トークンを「混合」する単純な線形変換に自己着脱部分層を置き換える。
FNetと呼ばれる結果のモデルは、長い入力に対して非常に効率的にスケールします。
論文 参考訳(メタデータ) (2021-05-09T03:32:48Z) - Shortformer: Better Language Modeling using Shorter Inputs [62.51758040848735]
当初、モデルを短いサブシーケンスでトレーニングした後、長いサブシーケンスに移行する前に、どちらもトレーニング時間を短縮することを示す。
次に, 変圧器における再帰法の効率を改善する方法を示す。
論文 参考訳(メタデータ) (2020-12-31T18:52:59Z) - Addressing Some Limitations of Transformers with Feedback Memory [51.94640029417114]
トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。
本稿では、過去のすべての表現を将来のすべての表現に公開する、フィードバックトランスフォーマーアーキテクチャを提案する。
言語モデリング、機械翻訳、強化学習の様々なベンチマークにおいて、表現能力の増大は、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さくて浅いモデルを生成することができることを実証する。
論文 参考訳(メタデータ) (2020-02-21T16:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。