論文の概要: FNet: Mixing Tokens with Fourier Transforms
- arxiv url: http://arxiv.org/abs/2105.03824v1
- Date: Sun, 9 May 2021 03:32:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 15:19:44.010666
- Title: FNet: Mixing Tokens with Fourier Transforms
- Title(参考訳): FNet: トークンとフーリエ変換の混合
- Authors: James Lee-Thorp, Joshua Ainslie, Ilya Eckstein, Santiago Ontanon
- Abstract要約: Transformerエンコーダアーキテクチャは、限られた精度コストで大幅に高速化できることを示しています。
入力トークンを「混合」する単純な線形変換に自己着脱部分層を置き換える。
FNetと呼ばれる結果のモデルは、長い入力に対して非常に効率的にスケールします。
- 参考スコア(独自算出の注目度): 0.578717214982749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show that Transformer encoder architectures can be massively sped up, with
limited accuracy costs, by replacing the self-attention sublayers with simple
linear transformations that "mix" input tokens. These linear transformations,
along with simple nonlinearities in feed-forward layers, are sufficient to
model semantic relationships in several text classification tasks. Perhaps most
surprisingly, we find that replacing the self-attention sublayer in a
Transformer encoder with a standard, unparameterized Fourier Transform achieves
92% of the accuracy of BERT on the GLUE benchmark, but pre-trains and runs up
to seven times faster on GPUs and twice as fast on TPUs. The resulting model,
which we name FNet, scales very efficiently to long inputs, matching the
accuracy of the most accurate "efficient" Transformers on the Long Range Arena
benchmark, but training and running faster across all sequence lengths on GPUs
and relatively shorter sequence lengths on TPUs. Finally, FNet has a light
memory footprint and is particularly efficient at smaller model sizes: for a
fixed speed and accuracy budget, small FNet models outperform Transformer
counterparts.
- Abstract(参考訳): トランスフォーマーエンコーダのアーキテクチャは,入力トークンを"混合"する単純な線形変換に自己付着部分層を置き換えることで,少ない精度で大規模に高速化できることを示す。
これらの線形変換はフィードフォワード層の単純な非線形性とともに、いくつかのテキスト分類タスクで意味関係をモデル化するのに十分である。
おそらく最も驚くべきことに、Transformerエンコーダの自己注意サブレイヤを標準の非パラメータ化フーリエ変換に置き換えると、GLUEベンチマークではBERTの精度は92%になるが、GPUでは7倍高速で、TPUでは2倍高速である。
FNetと呼ばれる結果のモデルは、Long Range Arenaベンチマークの最も正確な"効率的な"変換器の精度と非常に効率的にスケールするが、GPU上のすべてのシーケンス長とTPU上の比較的短いシーケンス長のトレーニングと実行は高速である。
最後に、FNetは軽量メモリのフットプリントを持ち、特に小さなモデルサイズで効率的である: 固定速度と精度の予算のために、小さなFNetモデルはTransformerよりも優れている。
関連論文リスト
- Variable-size Symmetry-based Graph Fourier Transforms for image compression [65.7352685872625]
可変サイズのグラフフーリエ変換を符号化フレームワークに導入する。
提案アルゴリズムは,ノード間の特定の対称接続を追加することにより,グリッド上の対称グラフを生成する。
実験により、SBGFTは、明示的な多重変換選択に統合された一次変換よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-24T13:00:44Z) - Fourier Transformer: Fast Long Range Modeling by Removing Sequence
Redundancy with FFT Operator [24.690247474891958]
フーリエ変換器は、様々な大きな事前訓練されたモデルから継承する能力を維持しながら、計算コストを大幅に削減することができる。
本モデルは,長距離モデリングベンチマークLRAにおいて,トランスフォーマーベースモデル間の最先端性能を実現する。
CNN/DailyMailやELI5などのシークエンシャルなシークエンスタスクでは、BARTを継承することで、私たちのモデルは標準のBARTよりも優れています。
論文 参考訳(メタデータ) (2023-05-24T12:33:06Z) - Block-Recurrent Transformers [49.07682696216708]
本稿では,逐次的にトランス層を適用するBlock-Recurrent Transformerを提案する。
我々のリカレントセルはシングルトークンではなくトークンブロック上で動作し、アクセルハードウェアを効率的に活用するためにブロック内の並列計算を利用する。
論文 参考訳(メタデータ) (2022-03-11T23:44:33Z) - Sparse is Enough in Scaling Transformers [12.561317511514469]
大規模なTransformerモデルは、多くのタスクにおいて印象的な結果をもたらすが、トレーニングや微調整は高価であり、デコードが遅いため、使用と研究が手に入らない。
本稿では,スパース層を用いた次世代トランスフォーマーモデルのファミリーであるScaling Transformerを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:53:46Z) - PoNet: Pooling Network for Efficient Token Mixing in Long Sequences [34.657602765639375]
本稿では,線形複雑度を持つ長列のトークン混合のための新しいPooling Network(PoNet)を提案する。
Long Range Arenaベンチマークでは、PoNetはTransformerを著しく上回り、競合する精度を実現している。
論文 参考訳(メタデータ) (2021-10-06T01:07:54Z) - Fastformer: Additive Attention Can Be All You Need [51.79399904527525]
本稿では,加法的注意に基づく効率的なトランスフォーマーモデルであるFastformerを提案する。
Fastformerでは、トークン間のペアワイズインタラクションをモデル化する代わりに、まずグローバルコンテキストをモデル化するために追加アテンションメカニズムを使用します。
このように、Fastformerは線形複雑性を伴う効果的なコンテキストモデリングを実現することができる。
論文 参考訳(メタデータ) (2021-08-20T09:44:44Z) - FNetAR: Mixing Tokens with Autoregressive Fourier Transforms [0.0]
本稿では、FNetARが因果言語モデリングのタスクにおいて、最先端の性能(25.8ppl)を維持していることを示す。
自己回帰フーリエ変換は、ほとんどのTransformerベースの時系列予測モデルにおけるパラメータとして使われる可能性がある。
論文 参考訳(メタデータ) (2021-07-22T21:24:02Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Long Range Arena: A Benchmark for Efficient Transformers [115.1654897514089]
ロングレンジアリーナベンチマーク(Long-rangearena benchmark)は、1Kドルから16Kドルまでの一連のタスクからなるスイートである。
我々は,新たに提案したベンチマークスイートを用いて,よく確立された10種類の長距離トランスフォーマーモデルを体系的に評価した。
論文 参考訳(メタデータ) (2020-11-08T15:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。