論文の概要: FMMformer: Efficient and Flexible Transformer via Decomposed Near-field
and Far-field Attention
- arxiv url: http://arxiv.org/abs/2108.02347v1
- Date: Thu, 5 Aug 2021 03:21:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-07 00:31:40.954716
- Title: FMMformer: Efficient and Flexible Transformer via Decomposed Near-field
and Far-field Attention
- Title(参考訳): FMMformer:非分解近接場および遠方場注意による効率・柔軟変換器
- Authors: Tan M. Nguyen and Vai Suliafu and Stanley J. Osher and Long Chen and
Bao Wang
- Abstract要約: 高速マルチポール法(FMM)にインスパイアされた,効率的で柔軟なトランスフォーマーのクラスを提案する。
FMMフォーマは粒子-粒子相互作用を近接場と遠距離場に分解する。
我々は、FMMフォーマの標準変圧器に対する利点を精度で検証し、検証する。
- 参考スコア(独自算出の注目度): 13.277129915782398
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We propose FMMformers, a class of efficient and flexible transformers
inspired by the celebrated fast multipole method (FMM) for accelerating
interacting particle simulation. FMM decomposes particle-particle interaction
into near-field and far-field components and then performs direct and
coarse-grained computation, respectively. Similarly, FMMformers decompose the
attention into near-field and far-field attention, modeling the near-field
attention by a banded matrix and the far-field attention by a low-rank matrix.
Computing the attention matrix for FMMformers requires linear complexity in
computational time and memory footprint with respect to the sequence length. In
contrast, standard transformers suffer from quadratic complexity. We analyze
and validate the advantage of FMMformers over the standard transformer on the
Long Range Arena and language modeling benchmarks. FMMformers can even
outperform the standard transformer in terms of accuracy by a significant
margin. For instance, FMMformers achieve an average classification accuracy of
$60.74\%$ over the five Long Range Arena tasks, which is significantly better
than the standard transformer's average accuracy of $58.70\%$.
- Abstract(参考訳): 粒子シミュレーションを高速化するための高速マルチポール法(FMM)に触発された,効率的で柔軟な変換器のクラスであるFMMformersを提案する。
FMMは、粒子と粒子の相互作用を近接場と遠場に分解し、それぞれ直接および粗粒の計算を行う。
同様に、fmmフォーマーは、近視野と遠視野の注意に注意を分解し、バンドドマトリックスによる近視野の注意と低ランクのマトリクスによる遠視野の注意をモデル化する。
FMMフォーマーの注意行列の計算には、列長に関する計算時間とメモリフットプリントの線形複雑さが必要である。
対照的に、標準変圧器は二次的な複雑さに悩まされる。
本研究では,Long Range Arenaの標準変圧器と言語モデリングベンチマークによるFMMフォーマーの利点を分析し,検証する。
FMMフォーマーは、精度の点で標準変圧器よりもかなり優れている。
例えば、FMMフォーマーは5つのLong Range Arenaタスクに対して平均分類精度が60.74 %$であり、標準変換器の平均精度が58.70 %$よりもかなり良い。
関連論文リスト
- SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの視覚タスクにおいて印象的なパフォーマンスを達成した。
チャネルミキサーや機能ミキシングブロック(FFNか)の研究は、はるかに少ない。
密度の高い接続は、より大きな膨張比をサポートする対角線ブロック構造に置き換えることができることを示す。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - Functional Interpolation for Relative Positions Improves Long Context
Transformers [86.12843093589]
本稿では,より長いコンテキストに変換器の一般化を改善するために,プログレッシブなFIREを用いた関数的相対的位置符号化を提案する。
理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングのいくつかを表現できる。
FIREモデルは、ゼロショット言語モデリングと長文ベンチマークの両方において、より長い文脈での一般化がより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T17:59:11Z) - MixFormerV2: Efficient Fully Transformer Tracking [49.07428299165031]
トランスフォーマーベースのトラッカーは標準ベンチマークで高い精度を実現している。
しかし、その効率性は、GPUとCPUプラットフォームの両方での実践的なデプロイの障害であり続けている。
本稿では,EmphMixFormerV2と呼ばれるフルトランスフォーマートラッキングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T09:50:54Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - FEDformer: Frequency Enhanced Decomposed Transformer for Long-term
Series Forecasting [23.199388386249215]
本稿では,Transformerと季節差分解法を組み合わせることで,時系列のグローバルなプロファイルを解析する手法を提案する。
我々は、ほとんどの時系列がフーリエ変換のようなよく知られた基底でスパース表現を持つ傾向があるという事実を利用する。
周波数拡張分解変換器 (bf FEDformer) は, より効率的であるとともに, 周波数拡張分解変換器 (ff FEDformer) とよばれる手法が標準変換器よりも効率的である。
論文 参考訳(メタデータ) (2022-01-30T06:24:25Z) - Transformer with a Mixture of Gaussian Keys [31.91701434633319]
マルチヘッドアテンションは最先端のトランスフォーマーの背後にある原動力である。
Transformer-MGKは、トランスフォーマーの冗長なヘッドを、各ヘッドにキーの混合で置き換える。
従来のトランスフォーマーと比較して、Transformer-MGKはトレーニングと推論を加速し、パラメータが少なく、計算するFLOPも少ない。
論文 参考訳(メタデータ) (2021-10-16T23:43:24Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Relative Positional Encoding for Transformers with Linear Complexity [30.48367640796256]
古典的なトランスフォーマーには、相対的位置符号化(RPE)が有用である。
RPEは、注意行列の明示的な計算を必要とするため、最近のTransformerの線形変種では利用できない。
本論文では,古典的添加剤(正弦波型)PEの代替として用いることができ,RPEのように振る舞うことができるPEの正確な生成方法について述べる。
論文 参考訳(メタデータ) (2021-05-18T09:52:32Z) - FNet: Mixing Tokens with Fourier Transforms [0.578717214982749]
Transformerエンコーダアーキテクチャは、限られた精度コストで大幅に高速化できることを示しています。
入力トークンを「混合」する単純な線形変換に自己着脱部分層を置き換える。
FNetと呼ばれる結果のモデルは、長い入力に対して非常に効率的にスケールします。
論文 参考訳(メタデータ) (2021-05-09T03:32:48Z) - Random Feature Attention [69.4671822971207]
ソフトマックス関数を近似するためにランダム特徴法を用いる線形時間空間アテンション RFA を提案する。
RFAは、従来のソフトマックスアテンションのドロップイン代替として使用することができ、オプションのゲーティング機構を通じて、遅延バイアスで直接学習する方法を提供する。
言語モデリングと機械翻訳の実験は、RFAが強力なトランスのベースラインと類似またはより良いパフォーマンスを達成することを実証します。
論文 参考訳(メタデータ) (2021-03-03T02:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。