論文の概要: Fourier Transformer: Fast Long Range Modeling by Removing Sequence
Redundancy with FFT Operator
- arxiv url: http://arxiv.org/abs/2305.15099v1
- Date: Wed, 24 May 2023 12:33:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 16:00:22.681608
- Title: Fourier Transformer: Fast Long Range Modeling by Removing Sequence
Redundancy with FFT Operator
- Title(参考訳): フーリエ変圧器:fftオペレータによるシーケンス冗長性除去による長距離高速モデリング
- Authors: Ziwei He, Meng Yang, Minwei Feng, Jingcheng Yin, Xinbing Wang, Jingwen
Leng, Zhouhan Lin
- Abstract要約: フーリエ変換器は、様々な大きな事前訓練されたモデルから継承する能力を維持しながら、計算コストを大幅に削減することができる。
本モデルは,長距離モデリングベンチマークLRAにおいて,トランスフォーマーベースモデル間の最先端性能を実現する。
CNN/DailyMailやELI5などのシークエンシャルなシークエンスタスクでは、BARTを継承することで、私たちのモデルは標準のBARTよりも優れています。
- 参考スコア(独自算出の注目度): 24.690247474891958
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The transformer model is known to be computationally demanding, and
prohibitively costly for long sequences, as the self-attention module uses a
quadratic time and space complexity with respect to sequence length. Many
researchers have focused on designing new forms of self-attention or
introducing new parameters to overcome this limitation, however a large portion
of them prohibits the model to inherit weights from large pretrained models. In
this work, the transformer's inefficiency has been taken care of from another
perspective. We propose Fourier Transformer, a simple yet effective approach by
progressively removing redundancies in hidden sequence using the ready-made
Fast Fourier Transform (FFT) operator to perform Discrete Cosine Transformation
(DCT). Fourier Transformer is able to significantly reduce computational costs
while retain the ability to inherit from various large pretrained models.
Experiments show that our model achieves state-of-the-art performances among
all transformer-based models on the long-range modeling benchmark LRA with
significant improvement in both speed and space. For generative seq-to-seq
tasks including CNN/DailyMail and ELI5, by inheriting the BART weights our
model outperforms the standard BART and other efficient models. \footnote{Our
code is publicly available at
\url{https://github.com/LUMIA-Group/FourierTransformer}}
- Abstract(参考訳): トランスフォーマーモデルは計算上必要であり、長い列に対して非常にコストがかかることが知られており、自己アテンションモジュールは列の長さに関して二次時間と空間の複雑さを用いる。
多くの研究者は、この制限を克服するために新しいタイプの自己注意を設計したり、新しいパラメータを導入したりすることに重点を置いている。
この研究では、変圧器の非効率性は別の観点から考慮されている。
本研究では,既製高速フーリエ変換 (fft) 演算子を用いて離散コサイン変換 (dct) を行うことにより,隠れ列の冗長性を漸進的に除去する手法であるフーリエ変圧器を提案する。
フーリエ変換器は、様々な大きな事前訓練されたモデルから継承する能力を維持しながら、計算コストを大幅に削減することができる。
実験により,長距離モデリングベンチマークLRAにおけるトランスフォーマーモデル間の最先端性能が向上し,速度と空間の両面で有意な改善が得られた。
CNN/DailyMailやELI5などのシークエンス・ツー・シークエンスタスクでは、BARTを継承することで、私たちのモデルは標準のBARTや他の効率的なモデルよりも優れています。
\footnote{Our code is public available at \url{https://github.com/LUMIA-Group/FourierTransformer}}
関連論文リスト
- Utilizing Image Transforms and Diffusion Models for Generative Modeling of Short and Long Time Series [7.201938834736084]
可変長時系列の統一生成モデルを提案する。
遅延埋め込みや短時間フーリエ変換などの可逆変換を用いる。
提案手法は,強いベースラインに対して常に最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-25T13:06:18Z) - PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - Fast-FNet: Accelerating Transformer Encoder Models via Efficient Fourier
Layers [0.0]
トランスフォーマーベースの言語モデルは、ほぼすべての自然言語処理(NLP)タスクにおいて、大幅なパフォーマンス向上のためにアテンションメカニズムを利用する。
最近の研究は、計算不効率の欠点を取り除くことに重点を置いており、トランスフォーマーベースのモデルが注意層を使わずに競争結果に到達できることを示した。
先駆的な研究は、アテンション層をトランスフォーマーエンコーダアーキテクチャのフーリエ変換(FT)に置き換えるFNetを提案した。
論文 参考訳(メタデータ) (2022-09-26T16:23:02Z) - FNetAR: Mixing Tokens with Autoregressive Fourier Transforms [0.0]
本稿では、FNetARが因果言語モデリングのタスクにおいて、最先端の性能(25.8ppl)を維持していることを示す。
自己回帰フーリエ変換は、ほとんどのTransformerベースの時系列予測モデルにおけるパラメータとして使われる可能性がある。
論文 参考訳(メタデータ) (2021-07-22T21:24:02Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - FNet: Mixing Tokens with Fourier Transforms [0.578717214982749]
Transformerエンコーダアーキテクチャは、限られた精度コストで大幅に高速化できることを示しています。
入力トークンを「混合」する単純な線形変換に自己着脱部分層を置き換える。
FNetと呼ばれる結果のモデルは、長い入力に対して非常に効率的にスケールします。
論文 参考訳(メタデータ) (2021-05-09T03:32:48Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Long Range Arena: A Benchmark for Efficient Transformers [115.1654897514089]
ロングレンジアリーナベンチマーク(Long-rangearena benchmark)は、1Kドルから16Kドルまでの一連のタスクからなるスイートである。
我々は,新たに提案したベンチマークスイートを用いて,よく確立された10種類の長距離トランスフォーマーモデルを体系的に評価した。
論文 参考訳(メタデータ) (2020-11-08T15:53:56Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。