論文の概要: Linformer: Self-Attention with Linear Complexity
- arxiv url: http://arxiv.org/abs/2006.04768v3
- Date: Sun, 14 Jun 2020 08:15:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 00:49:47.725496
- Title: Linformer: Self-Attention with Linear Complexity
- Title(参考訳): Linformer: 線形複雑性を伴う自己認識
- Authors: Sinong Wang, Belinda Z. Li, Madian Khabsa, Han Fang, Hao Ma
- Abstract要約: 大規模なトランスモデルは、多くの自然言語処理アプリケーションにおいて最先端の結果を達成するのに極めて成功している。
Transformerの標準的な自己保持機構は、シーケンス長に対して$O(n2)$時間と空間を使用する。
そこで本研究では,時間と空間の両方において,全体の自己認識の複雑さを$O(n2)$から$O(n)$に削減する,新たな自己認識機構を提案する。
- 参考スコア(独自算出の注目度): 36.5703957318311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large transformer models have shown extraordinary success in achieving
state-of-the-art results in many natural language processing applications.
However, training and deploying these models can be prohibitively costly for
long sequences, as the standard self-attention mechanism of the Transformer
uses $O(n^2)$ time and space with respect to sequence length. In this paper, we
demonstrate that the self-attention mechanism can be approximated by a low-rank
matrix. We further exploit this finding to propose a new self-attention
mechanism, which reduces the overall self-attention complexity from $O(n^2)$ to
$O(n)$ in both time and space. The resulting linear transformer, the
\textit{Linformer}, performs on par with standard Transformer models, while
being much more memory- and time-efficient.
- Abstract(参考訳): 大規模なトランスモデルは、多くの自然言語処理アプリケーションにおいて最先端の結果を達成するのに極めて成功している。
しかし、トランスフォーマーの標準的な自己保持機構は、シーケンスの長さに関して、時間と空間を$O(n^2)で使用するため、これらのモデルのトレーニングとデプロイは、非常にコストがかかる。
本稿では,低ランク行列を用いて自己認識機構を近似できることを実証する。
さらに,この知見を活かして,時間と空間の両方において,自己着脱の複雑さを$o(n^2)$から$o(n)$に削減する,新たな自己着脱機構を提案する。
結果として生じる線形変換器である \textit{Linformer} は標準の Transformer モデルと同等に動作し、メモリ効率と時間効率が向上する。
関連論文リスト
- SAMformer: Unlocking the Potential of Transformers in Time Series Forecasting with Sharpness-Aware Minimization and Channel-Wise Attention [14.672072173674039]
高い表現力にもかかわらず,変換器は真の解に収束することができないことを示す。
シャープネス・アウェア・最適化に最適化された場合, ローカル・ミニマの悪さを回避できる浅層軽量変圧器モデルを提案する。
特にSAMformerは現在の最先端メソッドを超え、最大の基盤モデルであるMOIRAIと同等であり、パラメータは大幅に少ない。
論文 参考訳(メタデータ) (2024-02-15T18:55:05Z) - Fourier Transformer: Fast Long Range Modeling by Removing Sequence
Redundancy with FFT Operator [24.690247474891958]
フーリエ変換器は、様々な大きな事前訓練されたモデルから継承する能力を維持しながら、計算コストを大幅に削減することができる。
本モデルは,長距離モデリングベンチマークLRAにおいて,トランスフォーマーベースモデル間の最先端性能を実現する。
CNN/DailyMailやELI5などのシークエンシャルなシークエンスタスクでは、BARTを継承することで、私たちのモデルは標準のBARTよりも優れています。
論文 参考訳(メタデータ) (2023-05-24T12:33:06Z) - Mega: Moving Average Equipped Gated Attention [150.3124713793503]
メガ (Mega) は、(予備的な)移動平均を備えた単純で理論上は接地された単頭誘導式アテンション機構である。
我々はMegaがトランスフォーマーの変種や最近の状態空間モデルを含む他のシーケンスモデルよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2022-09-21T20:52:17Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。
遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。
提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2021-07-05T18:00:14Z) - Revisiting Linformer with a modified self-attention with linear
complexity [0.0]
時間・空間の線形複雑性を考慮した自己保持の代替法を提案する。
この方法は長いシーケンスで機能するので、音声だけでなく画像にも使用できる。
論文 参考訳(メタデータ) (2020-12-16T13:23:29Z) - Long Range Arena: A Benchmark for Efficient Transformers [115.1654897514089]
ロングレンジアリーナベンチマーク(Long-rangearena benchmark)は、1Kドルから16Kドルまでの一連のタスクからなるスイートである。
我々は,新たに提案したベンチマークスイートを用いて,よく確立された10種類の長距離トランスフォーマーモデルを体系的に評価した。
論文 参考訳(メタデータ) (2020-11-08T15:53:56Z) - Transformers are RNNs: Fast Autoregressive Transformers with Linear
Attention [22.228028613802174]
トランスフォーマーは、いくつかのタスクで顕著なパフォーマンスを達成するが、その二次的な複雑さのため、非常に長いシーケンスでは明らかに遅い。
我々は行列積の連想性を利用して複雑さを$mathcalOleft(N2right)$から$mathcalOleft(Nright)$に減らし、$N$はシーケンス長である。
線形変圧器はバニラ変圧器と同等の性能を示し、非常に長いシーケンスの自己回帰予測では最大4000倍高速である。
論文 参考訳(メタデータ) (2020-06-29T17:55:38Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z) - Reformer: The Efficient Transformer [21.425616422007543]
本稿では,トランスフォーマーの効率向上のための2つの手法を提案する。
ドット積の注意を局所性に敏感なハッシュで置き換え、O($L2$) から O($Llog L$) に変更する。
結果のモデルであるReformerはTransformerモデルと同等に動作し、長いシーケンスでははるかにメモリ効率が良く、はるかに高速である。
論文 参考訳(メタデータ) (2020-01-13T18:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。