論文の概要: Fourier Transformer: Fast Long Range Modeling by Removing Sequence
Redundancy with FFT Operator
- arxiv url: http://arxiv.org/abs/2305.15099v1
- Date: Wed, 24 May 2023 12:33:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 16:00:22.681608
- Title: Fourier Transformer: Fast Long Range Modeling by Removing Sequence
Redundancy with FFT Operator
- Title(参考訳): フーリエ変圧器:fftオペレータによるシーケンス冗長性除去による長距離高速モデリング
- Authors: Ziwei He, Meng Yang, Minwei Feng, Jingcheng Yin, Xinbing Wang, Jingwen
Leng, Zhouhan Lin
- Abstract要約: フーリエ変換器は、様々な大きな事前訓練されたモデルから継承する能力を維持しながら、計算コストを大幅に削減することができる。
本モデルは,長距離モデリングベンチマークLRAにおいて,トランスフォーマーベースモデル間の最先端性能を実現する。
CNN/DailyMailやELI5などのシークエンシャルなシークエンスタスクでは、BARTを継承することで、私たちのモデルは標準のBARTよりも優れています。
- 参考スコア(独自算出の注目度): 24.690247474891958
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The transformer model is known to be computationally demanding, and
prohibitively costly for long sequences, as the self-attention module uses a
quadratic time and space complexity with respect to sequence length. Many
researchers have focused on designing new forms of self-attention or
introducing new parameters to overcome this limitation, however a large portion
of them prohibits the model to inherit weights from large pretrained models. In
this work, the transformer's inefficiency has been taken care of from another
perspective. We propose Fourier Transformer, a simple yet effective approach by
progressively removing redundancies in hidden sequence using the ready-made
Fast Fourier Transform (FFT) operator to perform Discrete Cosine Transformation
(DCT). Fourier Transformer is able to significantly reduce computational costs
while retain the ability to inherit from various large pretrained models.
Experiments show that our model achieves state-of-the-art performances among
all transformer-based models on the long-range modeling benchmark LRA with
significant improvement in both speed and space. For generative seq-to-seq
tasks including CNN/DailyMail and ELI5, by inheriting the BART weights our
model outperforms the standard BART and other efficient models. \footnote{Our
code is publicly available at
\url{https://github.com/LUMIA-Group/FourierTransformer}}
- Abstract(参考訳): トランスフォーマーモデルは計算上必要であり、長い列に対して非常にコストがかかることが知られており、自己アテンションモジュールは列の長さに関して二次時間と空間の複雑さを用いる。
多くの研究者は、この制限を克服するために新しいタイプの自己注意を設計したり、新しいパラメータを導入したりすることに重点を置いている。
この研究では、変圧器の非効率性は別の観点から考慮されている。
本研究では,既製高速フーリエ変換 (fft) 演算子を用いて離散コサイン変換 (dct) を行うことにより,隠れ列の冗長性を漸進的に除去する手法であるフーリエ変圧器を提案する。
フーリエ変換器は、様々な大きな事前訓練されたモデルから継承する能力を維持しながら、計算コストを大幅に削減することができる。
実験により,長距離モデリングベンチマークLRAにおけるトランスフォーマーモデル間の最先端性能が向上し,速度と空間の両面で有意な改善が得られた。
CNN/DailyMailやELI5などのシークエンス・ツー・シークエンスタスクでは、BARTを継承することで、私たちのモデルは標準のBARTや他の効率的なモデルよりも優れています。
\footnote{Our code is public available at \url{https://github.com/LUMIA-Group/FourierTransformer}}
関連論文リスト
- Transformer-based Models for Long-Form Document Matching: Challenges and
Empirical Analysis [12.269318291685753]
単純なニューラルネットワークは、より複雑なBERTベースのモデルよりも優れていることを示す。
単純なモデルは、文書の長さやテキストの摂動のバリエーションに対して、より堅牢である。
論文 参考訳(メタデータ) (2023-02-07T21:51:05Z) - Fast-FNet: Accelerating Transformer Encoder Models via Efficient Fourier
Layers [0.0]
トランスフォーマーベースの言語モデルは、ほぼすべての自然言語処理(NLP)タスクにおいて、大幅なパフォーマンス向上のためにアテンションメカニズムを利用する。
最近の研究は、計算不効率の欠点を取り除くことに重点を置いており、トランスフォーマーベースのモデルが注意層を使わずに競争結果に到達できることを示した。
先駆的な研究は、アテンション層をトランスフォーマーエンコーダアーキテクチャのフーリエ変換(FT)に置き換えるFNetを提案した。
論文 参考訳(メタデータ) (2022-09-26T16:23:02Z) - Block-Recurrent Transformers [49.07682696216708]
本稿では,逐次的にトランス層を適用するBlock-Recurrent Transformerを提案する。
我々のリカレントセルはシングルトークンではなくトークンブロック上で動作し、アクセルハードウェアを効率的に活用するためにブロック内の並列計算を利用する。
論文 参考訳(メタデータ) (2022-03-11T23:44:33Z) - FNetAR: Mixing Tokens with Autoregressive Fourier Transforms [0.0]
本稿では、FNetARが因果言語モデリングのタスクにおいて、最先端の性能(25.8ppl)を維持していることを示す。
自己回帰フーリエ変換は、ほとんどのTransformerベースの時系列予測モデルにおけるパラメータとして使われる可能性がある。
論文 参考訳(メタデータ) (2021-07-22T21:24:02Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - FNet: Mixing Tokens with Fourier Transforms [0.578717214982749]
Transformerエンコーダアーキテクチャは、限られた精度コストで大幅に高速化できることを示しています。
入力トークンを「混合」する単純な線形変換に自己着脱部分層を置き換える。
FNetと呼ばれる結果のモデルは、長い入力に対して非常に効率的にスケールします。
論文 参考訳(メタデータ) (2021-05-09T03:32:48Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Long Range Arena: A Benchmark for Efficient Transformers [115.1654897514089]
ロングレンジアリーナベンチマーク(Long-rangearena benchmark)は、1Kドルから16Kドルまでの一連のタスクからなるスイートである。
我々は,新たに提案したベンチマークスイートを用いて,よく確立された10種類の長距離トランスフォーマーモデルを体系的に評価した。
論文 参考訳(メタデータ) (2020-11-08T15:53:56Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。