論文の概要: Smart Bird: Learnable Sparse Attention for Efficient and Effective
Transformer
- arxiv url: http://arxiv.org/abs/2108.09193v1
- Date: Fri, 20 Aug 2021 14:22:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-23 16:28:10.092467
- Title: Smart Bird: Learnable Sparse Attention for Efficient and Effective
Transformer
- Title(参考訳): Smart Bird: 効率的かつ効果的なトランスのための学習可能なスパースアテンション
- Authors: Chuhan Wu, Fangzhao Wu, Tao Qi, Yongfeng Huang
- Abstract要約: 学習可能なスパースアテンションを持つ効率的かつ効果的なトランスフォーマーであるSmart Birdを提案する。
Smart Birdでは、まず1ヘッドの低次元変換器でスケッチされた注目行列を計算します。
次に、スケッチされた注目行列から得られた確率スコアに基づいてトークンペアをサンプリングし、異なる注目ヘッドに対して異なるスパース注意指標行列を生成する。
- 参考スコア(独自算出の注目度): 51.79399904527525
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Transformer has achieved great success in NLP. However, the quadratic
complexity of the self-attention mechanism in Transformer makes it inefficient
in handling long sequences. Many existing works explore to accelerate
Transformers by computing sparse self-attention instead of a dense one, which
usually attends to tokens at certain positions or randomly selected tokens.
However, manually selected or random tokens may be uninformative for context
modeling. In this paper, we propose Smart Bird, which is an efficient and
effective Transformer with learnable sparse attention. In Smart Bird, we first
compute a sketched attention matrix with a single-head low-dimensional
Transformer, which aims to find potential important interactions between
tokens. We then sample token pairs based on their probability scores derived
from the sketched attention matrix to generate different sparse attention index
matrices for different attention heads. Finally, we select token embeddings
according to the index matrices to form the input of sparse attention networks.
Extensive experiments on six benchmark datasets for different tasks validate
the efficiency and effectiveness of Smart Bird in text modeling.
- Abstract(参考訳): トランスフォーマーはNLPで大成功を収めた。
しかし、変圧器の自己着脱機構の二次的複雑性は長い列を扱うのに非効率である。
既存の多くの作品では、ある位置やランダムに選択されたトークンのトークンに通常出席する密度の高いものの代わりに、ばらばらな自己アテンションを計算することでトランスフォーマーを加速しようと試みている。
しかし、手動で選択されたトークンやランダムトークンはコンテキストモデリングには役に立たない。
本稿では,学習可能なスパースアテンションを持つ効率的かつ効率的なトランスフォーマーであるSmart Birdを提案する。
Smart Birdでは、トークン間の潜在的な重要な相互作用を見つけることを目的として、1ヘッドの低次元トランスフォーマーを用いてスケッチされた注目行列を最初に計算する。
次に、スケッチされた注目行列から得られた確率スコアに基づいてトークンペアをサンプリングし、異なる注目ヘッドに対して異なるスパース注意指標行列を生成する。
最後に、インデックス行列に従ってトークン埋め込みを選択し、スパースアテンションネットワークの入力を形成する。
テキストモデリングにおけるSmart Birdの有効性と有効性を検証した6つのベンチマークデータセットの大規模な実験。
関連論文リスト
- Manifold-Preserving Transformers are Effective for Short-Long Range
Encoding [39.14128923434994]
マルチヘッドセルフアテンションベースのトランスフォーマーは、異なる学習タスクにおいて有望であることを示す。
本研究では,一対のトークン間の層間距離保存を理論的に保証するエンコーダモデルTransJectを提案する。
論文 参考訳(メタデータ) (2023-10-22T06:58:28Z) - Spike-driven Transformer [31.931401322707995]
スパイキングニューラルネットワーク(SNN)は、独自のスパイクベースのイベント駆動(スパイク駆動)パラダイムにより、エネルギー効率のよいディープラーニングオプションを提供する。
本稿では,4つの特性を持つスパイク駆動トランスフォーマーにより,スパイク駆動のパラダイムをTransformerに組み込む。
Spike駆動トランスフォーマーはImageNet-1K上で77.1%のTop-1精度を達成でき、これはSNNフィールドにおける最先端の結果である。
論文 参考訳(メタデータ) (2023-07-04T13:00:18Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。
入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。
より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-07T12:37:54Z) - Diffuser: Efficient Transformers with Multi-hop Attention Diffusion for
Long Sequences [16.066338004414092]
textitDiffuserはシーケンシャル・ツー・シーケンス・モデリングのための新しい効率的なトランスフォーマーである。
低い計算とメモリコストを維持しながら、すべてのトークンインタラクションを1つの注意層に組み込む。
スペクトルの観点からグラフ展開特性を解析することにより、全アテンションを近似する能力を示す。
論文 参考訳(メタデータ) (2022-10-21T08:13:34Z) - Bird-Eye Transformers for Text Generation Models [49.47825106383972]
本稿では,鳥眼トランス (Bird-eye transformer, BET) と呼ばれる新しいアーキテクチャを提案する。
提案手法は,データベース上のベースライントランスフォーマーアーキテクチャよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-10-08T09:51:15Z) - Multi-Tailed Vision Transformer for Efficient Inference [44.43126137573205]
Vision Transformer (ViT) は画像認識において有望な性能を達成した。
本稿では,MT-ViT(Multi-Tailed Vision Transformer)を提案する。
MT-ViTは、以下のTransformerエンコーダのために異なる長さの視覚シーケンスを生成するために複数のテールを採用する。
論文 参考訳(メタデータ) (2022-03-03T09:30:55Z) - Fastformer: Additive Attention Can Be All You Need [51.79399904527525]
本稿では,加法的注意に基づく効率的なトランスフォーマーモデルであるFastformerを提案する。
Fastformerでは、トークン間のペアワイズインタラクションをモデル化する代わりに、まずグローバルコンテキストをモデル化するために追加アテンションメカニズムを使用します。
このように、Fastformerは線形複雑性を伴う効果的なコンテキストモデリングを実現することができる。
論文 参考訳(メタデータ) (2021-08-20T09:44:44Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。