論文の概要: Efficient Content-Based Sparse Attention with Routing Transformers
- arxiv url: http://arxiv.org/abs/2003.05997v5
- Date: Sat, 24 Oct 2020 19:41:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 14:24:11.684371
- Title: Efficient Content-Based Sparse Attention with Routing Transformers
- Title(参考訳): ルーティングトランスフォーマーを用いた効率的なコンテンツベーススパースアテンション
- Authors: Aurko Roy, Mohammad Saffar, Ashish Vaswani and David Grangier
- Abstract要約: 自己注意は、シーケンス長に関する二次計算とメモリ要求に悩まされる。
本研究は,関心の問合せとは無関係なコンテンツへのアロケートやメモリの参加を避けるために,動的スパースアテンションパターンを学習することを提案する。
- 参考スコア(独自算出の注目度): 34.83683983648021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attention has recently been adopted for a wide range of sequence
modeling problems. Despite its effectiveness, self-attention suffers from
quadratic compute and memory requirements with respect to sequence length.
Successful approaches to reduce this complexity focused on attending to local
sliding windows or a small set of locations independent of content. Our work
proposes to learn dynamic sparse attention patterns that avoid allocating
computation and memory to attend to content unrelated to the query of interest.
This work builds upon two lines of research: it combines the modeling
flexibility of prior work on content-based sparse attention with the efficiency
gains from approaches based on local, temporal sparse attention. Our model, the
Routing Transformer, endows self-attention with a sparse routing module based
on online k-means while reducing the overall complexity of attention to
$O\left(n^{1.5}d\right)$ from $O\left(n^2d\right)$ for sequence length $n$ and
hidden dimension $d$. We show that our model outperforms comparable sparse
attention models on language modeling on Wikitext-103 (15.8 vs 18.3 perplexity)
as well as on image generation on ImageNet-64 (3.43 vs 3.44 bits/dim) while
using fewer self-attention layers. Additionally, we set a new state-of-the-art
on the newly released PG-19 data-set, obtaining a test perplexity of 33.2 with
a 22 layer Routing Transformer model trained on sequences of length 8192.
- Abstract(参考訳): セルフアテンションは、近年、幅広いシーケンスモデリング問題に採用されている。
その効果にもかかわらず、自己注意はシーケンス長に関する二次計算とメモリ要求に悩まされる。
この複雑さを減らすために成功したアプローチは、ローカルスライディングウィンドウやコンテンツに依存しない小さな場所への出席に焦点が当てられた。
本研究は,関心の問合せとは無関係なコンテンツに対して,計算やメモリの割り当てを避けるために,動的スパース注意パターンを学習することを提案する。
この研究は、コンテンツベースのスパース・アテンションに対する事前の作業のモデリングの柔軟性と、局所的、時間的スパース・アテンションに基づくアプローチによる効率向上を組み合わせた2つの研究に基づいている。
我々のモデルであるRouting Transformerは、オンラインk-meansをベースとした疎いルーティングモジュールに自己注意を付与し、注意の全体的な複雑さを$O\left(n^{1.5}d\right)$から$O\left(n^2d\right)$に減らします。
我々は,Wikitext-103 の言語モデリングや ImageNet-64 (3.43 vs 3.44 bits/dim) の画像生成において,より少ない自己注意層を用いて,比較対象の少ない注意モデルよりも優れていることを示す。
さらに、新たにリリースされたpg-19データセットに新たな最先端を設定し、長さ8192のシーケンスでトレーニングされた22層ルーティングトランスフォーマモデルを用いて、33.2のテストパープレキシティを得た。
関連論文リスト
- Mamba: Linear-Time Sequence Modeling with Selective State Spaces [37.786327629797654]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z) - HartleyMHA: Self-Attention in Frequency Domain for Resolution-Robust and
Parameter-Efficient 3D Image Segmentation [4.48473804240016]
本稿では,効率的な自己注意による画像解像度のトレーニングに頑健なHartleyMHAモデルを提案する。
我々は、モデルサイズを桁違いに小さくするために、共有パラメータを持つハートレー変換を用いてFNOを変更する。
BraTS'19データセットでテストすると、モデルパラメータの1%未満の他のテストモデルよりも、画像解像度のトレーニングに優れた堅牢性を達成した。
論文 参考訳(メタデータ) (2023-10-05T18:44:41Z) - Toeplitz Neural Network for Sequence Modeling [46.04964190407727]
Toeplitz行列ベクトル生成のトリックにより、シーケンスモデリングの時間的複雑さを減らし、ログ線形化することを示す。
パラメータの固定予算で相対位置係数を生成するために、相対位置エンコーダと呼ばれる軽量サブネットワークを提案する。
512 tokenのシーケンスでトレーニングされているにもかかわらず、我々のモデルは、一貫した性能で最大14Kトークンの入力シーケンス長を推定することができる。
論文 参考訳(メタデータ) (2023-05-08T14:49:01Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。
遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。
提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2021-07-05T18:00:14Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。