論文の概要: Fast Transformers with Clustered Attention
- arxiv url: http://arxiv.org/abs/2007.04825v2
- Date: Tue, 29 Sep 2020 20:18:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 03:31:05.873905
- Title: Fast Transformers with Clustered Attention
- Title(参考訳): 集合注意を伴う高速変圧器
- Authors: Apoorv Vyas, Angelos Katharopoulos, Fran\c{c}ois Fleuret
- Abstract要約: 本稿では,クエリ毎の注目度を計算する代わりに,クエリをクラスタにグループ化し,セントロイドのみの注意度を算出するクラスタ型注意度を提案する。
これにより、固定数のクラスタのシーケンス長に対する線形複雑性を持つモデルが得られる。
我々は,2つの自動音声認識データセットに対するアプローチを評価し,そのモデルが与えられた計算予算に対して常にバニラ変換器より優れていることを示す。
- 参考スコア(独自算出の注目度): 14.448898156256478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have been proven a successful model for a variety of tasks in
sequence modeling. However, computing the attention matrix, which is their key
component, has quadratic complexity with respect to the sequence length, thus
making them prohibitively expensive for large sequences. To address this, we
propose clustered attention, which instead of computing the attention for every
query, groups queries into clusters and computes attention just for the
centroids. To further improve this approximation, we use the computed clusters
to identify the keys with the highest attention per query and compute the exact
key/query dot products. This results in a model with linear complexity with
respect to the sequence length for a fixed number of clusters. We evaluate our
approach on two automatic speech recognition datasets and show that our model
consistently outperforms vanilla transformers for a given computational budget.
Finally, we demonstrate that our model can approximate arbitrarily complex
attention distributions with a minimal number of clusters by approximating a
pretrained BERT model on GLUE and SQuAD benchmarks with only 25 clusters and no
loss in performance.
- Abstract(参考訳): トランスフォーマーは、シーケンスモデリングにおいて様々なタスクで成功したモデルであることが証明されている。
しかしながら、注意行列の計算は、その鍵となる要素であり、シーケンス長に関して二次的な複雑さを持ち、大きなシーケンスに対して非常に高価である。
そこで本研究では,クエリ毎の注目度を計算する代わりに,クエリをクラスタにグループ化し,セントロイドのみの注意度を算出する。
この近似をさらに改善するために、計算されたクラスタを使ってクエリ毎に最も注目されるキーを特定し、正確なkey/query dot製品を計算する。
これにより、一定の数のクラスタのシーケンス長に関して線形複雑性を持つモデルが得られる。
我々は,2つの自動音声認識データセットに対するアプローチを評価し,そのモデルが与えられた計算予算に対して常にバニラ変換器より優れていることを示す。
最後に, GLUE と SQuAD ベンチマークに事前学習したBERT モデルを 25 個のクラスタで近似することにより, 最小数のクラスタで任意に複雑な注意分布を近似できることを実証した。
関連論文リスト
- CAST: Clustering Self-Attention using Surrogate Tokens for Efficient
Transformers [3.129187821625805]
本稿では,Surrogate Tokens (CAST) を用いたクラスタリング自己注意機構を提案する。
CASTは複雑性を$O(N2)$から$O(アルファN)$に減らして効率を向上する。
論文 参考訳(メタデータ) (2024-02-06T18:47:52Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Conditional set generation using Seq2seq models [52.516563721766445]
条件セット生成は、トークンの入力シーケンスからセットへのマッピングを学習する。
シーケンス・ツー・シーケンス(Seq2seq)モデルは、モデルセット生成において一般的な選択である。
本稿では,ラベル順序空間上の情報的順序を効果的に抽出する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-25T04:17:50Z) - Enhancing Latent Space Clustering in Multi-filter Seq2Seq Model: A
Reinforcement Learning Approach [0.0]
クラスタリングアルゴリズムを用いて潜在空間表現を解析する潜時拡張型マルチフィルタセq2seqモデル (LMS2S) を設計する。
セマンティック解析と機械翻訳の実験により,クラスタリングの品質とモデルの性能の正の相関が示された。
論文 参考訳(メタデータ) (2021-09-25T16:36:31Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z) - Autoencoder-based time series clustering with energy applications [0.0]
時系列クラスタリングは、データの特定の性質のため、難しい作業である。
本稿では,畳み込み型オートエンコーダとk-メノイドアルゴリズムの組み合わせによる時系列クラスタリングについて検討する。
論文 参考訳(メタデータ) (2020-02-10T10:04:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。