論文の概要: CAST: Clustering Self-Attention using Surrogate Tokens for Efficient
Transformers
- arxiv url: http://arxiv.org/abs/2402.04239v1
- Date: Tue, 6 Feb 2024 18:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 13:29:10.307537
- Title: CAST: Clustering Self-Attention using Surrogate Tokens for Efficient
Transformers
- Title(参考訳): cast: 効率的なトランスフォーマーのためのサロゲートトークンを用いたクラスタリング
- Authors: Adjorn van Engelenhoven, Nicola Strisciuglio, Estefan\'ia Talavera
- Abstract要約: 本稿では,Surrogate Tokens (CAST) を用いたクラスタリング自己注意機構を提案する。
CASTは複雑性を$O(N2)$から$O(アルファN)$に減らして効率を向上する。
- 参考スコア(独自算出の注目度): 3.129187821625805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Transformer architecture has shown to be a powerful tool for a wide range
of tasks. It is based on the self-attention mechanism, which is an inherently
computationally expensive operation with quadratic computational complexity:
memory usage and compute time increase quadratically with the length of the
input sequences, thus limiting the application of Transformers. In this work,
we propose a novel Clustering self-Attention mechanism using Surrogate Tokens
(CAST), to optimize the attention computation and achieve efficient
transformers. CAST utilizes learnable surrogate tokens to construct a cluster
affinity matrix, used to cluster the input sequence and generate novel cluster
summaries. The self-attention from within each cluster is then combined with
the cluster summaries of other clusters, enabling information flow across the
entire input sequence. CAST improves efficiency by reducing the complexity from
$O(N^2)$ to $O(\alpha N)$ where N is the sequence length, and {\alpha} is
constant according to the number of clusters and samples per cluster. We show
that CAST performs better than or comparable to the baseline Transformers on
long-range sequence modeling tasks, while also achieving higher results on time
and memory efficiency than other efficient transformers.
- Abstract(参考訳): Transformerアーキテクチャは、幅広いタスクのための強力なツールであることが示されている。
メモリ使用量と計算時間は入力シーケンスの長さと2乗的に増加するため、トランスフォーマーの適用が制限される。
本研究では,注目計算を最適化し,効率的なトランスフォーマーを実現するために,サロゲートトークン(cast)を用いたクラスタリング方式を提案する。
CASTは学習可能なサロゲートトークンを使用してクラスタ親和性行列を構築し、入力シーケンスをクラスタ化し、新しいクラスタ要約を生成する。
各クラスタ内のセルフアテンションは、他のクラスタのクラスタサマリーと結合され、入力シーケンス全体にわたって情報フローを可能にする。
CASTは、複雑性を$O(N^2)$から$O(\alpha N)$に減らして効率を向上する。
castは長距離シーケンスモデリングタスクにおけるベースライントランスフォーマーよりも性能が優れ、また他の効率的なトランスフォーマーよりも時間とメモリ効率が向上することを示した。
関連論文リスト
- Enhanced Computationally Efficient Long LoRA Inspired Perceiver Architectures for Auto-Regressive Language Modeling [2.9228447484533695]
Transformer アーキテクチャは自然言語処理分野に革命をもたらし、Large Language Models (LLM) のバックボーンとなっている。
Transformerアーキテクチャの課題の1つは、長いシーケンス長の効率的な処理を禁止する注意機構の二次的な複雑さである。
この点において重要な研究の1つは、計算の複雑さを減らしながら優れた性能を示したPerceiverクラスのアーキテクチャである。
論文 参考訳(メタデータ) (2024-12-08T23:41:38Z) - MemoryFormer: Minimize Transformer Computation by Removing Fully-Connected Layers [43.39466934693055]
本稿では,新しい視点から計算複雑性(FLOP)を大幅に低減する,新しいトランスフォーマーアーキテクチャであるMemoryFormerを提案する。
これは、完全連結層の線形射影を置き換えるために、特徴変換の代替手法を利用することで実現される。
提案手法の有効性を示すため,様々なベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-11-20T02:41:53Z) - PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - Segmented Recurrent Transformer: An Efficient Sequence-to-Sequence Model [10.473819332984005]
分割された(局所的な)注意と再帰的な注意を結合した分節再帰変圧器(SRformer)を提案する。
提案モデルでは,分割変圧器よりも高いROUGE1スコアを6-22%で達成し,他の再帰変圧器よりも優れている。
論文 参考訳(メタデータ) (2023-05-24T03:47:22Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Block-Recurrent Transformers [49.07682696216708]
本稿では,逐次的にトランス層を適用するBlock-Recurrent Transformerを提案する。
我々のリカレントセルはシングルトークンではなくトークンブロック上で動作し、アクセルハードウェアを効率的に活用するためにブロック内の並列計算を利用する。
論文 参考訳(メタデータ) (2022-03-11T23:44:33Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z) - Fast Transformers with Clustered Attention [14.448898156256478]
本稿では,クエリ毎の注目度を計算する代わりに,クエリをクラスタにグループ化し,セントロイドのみの注意度を算出するクラスタ型注意度を提案する。
これにより、固定数のクラスタのシーケンス長に対する線形複雑性を持つモデルが得られる。
我々は,2つの自動音声認識データセットに対するアプローチを評価し,そのモデルが与えられた計算予算に対して常にバニラ変換器より優れていることを示す。
論文 参考訳(メタデータ) (2020-07-09T14:17:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。