Fugu-MT 論文翻訳(概要): CAST: Clustering Self-Attention using Surrogate Tokens for Efficient Transformers

論文の概要: CAST: Clustering Self-Attention using Surrogate Tokens for Efficient Transformers

arxiv url: http://arxiv.org/abs/2402.04239v1
Date: Tue, 6 Feb 2024 18:47:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 13:29:10.307537
Title: CAST: Clustering Self-Attention using Surrogate Tokens for Efficient Transformers
Title（参考訳）: cast: 効率的なトランスフォーマーのためのサロゲートトークンを用いたクラスタリング
Authors: Adjorn van Engelenhoven, Nicola Strisciuglio, Estefan\'ia Talavera
Abstract要約: 本稿では,Surrogate Tokens (CAST) を用いたクラスタリング自己注意機構を提案する。 CASTは複雑性を$O(N2)$から$O(アルファN)$に減らして効率を向上する。
参考スコア（独自算出の注目度）: 3.129187821625805
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Transformer architecture has shown to be a powerful tool for a wide range of tasks. It is based on the self-attention mechanism, which is an inherently computationally expensive operation with quadratic computational complexity: memory usage and compute time increase quadratically with the length of the input sequences, thus limiting the application of Transformers. In this work, we propose a novel Clustering self-Attention mechanism using Surrogate Tokens (CAST), to optimize the attention computation and achieve efficient transformers. CAST utilizes learnable surrogate tokens to construct a cluster affinity matrix, used to cluster the input sequence and generate novel cluster summaries. The self-attention from within each cluster is then combined with the cluster summaries of other clusters, enabling information flow across the entire input sequence. CAST improves efficiency by reducing the complexity from $O(N^2)$ to $O(\alpha N)$ where N is the sequence length, and {\alpha} is constant according to the number of clusters and samples per cluster. We show that CAST performs better than or comparable to the baseline Transformers on long-range sequence modeling tasks, while also achieving higher results on time and memory efficiency than other efficient transformers.
Abstract（参考訳）: Transformerアーキテクチャは、幅広いタスクのための強力なツールであることが示されている。メモリ使用量と計算時間は入力シーケンスの長さと2乗的に増加するため、トランスフォーマーの適用が制限される。本研究では,注目計算を最適化し,効率的なトランスフォーマーを実現するために,サロゲートトークン(cast)を用いたクラスタリング方式を提案する。 CASTは学習可能なサロゲートトークンを使用してクラスタ親和性行列を構築し、入力シーケンスをクラスタ化し、新しいクラスタ要約を生成する。各クラスタ内のセルフアテンションは、他のクラスタのクラスタサマリーと結合され、入力シーケンス全体にわたって情報フローを可能にする。 CASTは、複雑性を$O(N^2)$から$O(\alpha N)$に減らして効率を向上する。 castは長距離シーケンスモデリングタスクにおけるベースライントランスフォーマーよりも性能が優れ、また他の効率的なトランスフォーマーよりも時間とメモリ効率が向上することを示した。

関連論文リスト

A temporal scale transformer framework for precise remaining useful life prediction in fuel cells [10.899223392837936]
TS Transformer (Temporal Scale Transformer) は、逆変換器(i Transformer)の拡張版である。各タイムステップを入力トークンとして扱う従来のトランスフォーマーとは異なり、TSTransformerは異なる長さのシーケンスを異なる段階のトークンにマッピングし、シーケンス間モデリングを行う。局所的な特徴抽出を改善し、時間スケールの特徴を捉え、トークン数と計算コストを削減する。
論文参考訳（メタデータ） (2025-04-08T23:42:54Z)
Enhanced Computationally Efficient Long LoRA Inspired Perceiver Architectures for Auto-Regressive Language Modeling [2.9228447484533695]
Transformer アーキテクチャは自然言語処理分野に革命をもたらし、Large Language Models (LLM) のバックボーンとなっている。 Transformerアーキテクチャの課題の1つは、長いシーケンス長の効率的な処理を禁止する注意機構の二次的な複雑さである。この点において重要な研究の1つは、計算の複雑さを減らしながら優れた性能を示したPerceiverクラスのアーキテクチャである。
論文参考訳（メタデータ） (2024-12-08T23:41:38Z)
MemoryFormer: Minimize Transformer Computation by Removing Fully-Connected Layers [43.39466934693055]
本稿では,新しい視点から計算複雑性(FLOP)を大幅に低減する,新しいトランスフォーマーアーキテクチャであるMemoryFormerを提案する。これは、完全連結層の線形射影を置き換えるために、特徴変換の代替手法を利用することで実現される。提案手法の有効性を示すため,様々なベンチマーク実験を行った。
論文参考訳（メタデータ） (2024-11-20T02:41:53Z)
PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文参考訳（メタデータ） (2024-08-20T01:56:07Z)
Segmented Recurrent Transformer: An Efficient Sequence-to-Sequence Model [10.473819332984005]
分割された(局所的な)注意と再帰的な注意を結合した分節再帰変圧器(SRformer)を提案する。提案モデルでは,分割変圧器よりも高いROUGE1スコアを6-22%で達成し,他の再帰変圧器よりも優れている。
論文参考訳（メタデータ） (2023-05-24T03:47:22Z)
RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文参考訳（メタデータ） (2023-05-22T13:57:41Z)
Block-Recurrent Transformers [49.07682696216708]
本稿では,逐次的にトランス層を適用するBlock-Recurrent Transformerを提案する。我々のリカレントセルはシングルトークンではなくトークンブロック上で動作し、アクセルハードウェアを効率的に活用するためにブロック内の並列計算を利用する。
論文参考訳（メタデータ） (2022-03-11T23:44:33Z)
Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文参考訳（メタデータ） (2021-07-12T22:43:11Z)
Stable, Fast and Accurate: Kernelized Attention with Relative Positional Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文参考訳（メタデータ） (2021-06-23T17:51:26Z)
End-to-End Object Detection with Adaptive Clustering Transformer [37.9114488933667]
適応クラスタリング変換器(ACT)と呼ばれる新しい変種が提案され,高分解能入力の計算コストを削減した。 ACTクラスタクエリはLocality Sensitive Hashing (LSH)を使用して適応的に機能し、クエリキーのインタラクションをap-proximateする。コードは、実験の複製と検証の容易さの補足としてリリースされている。
論文参考訳（メタデータ） (2020-11-18T14:36:37Z)
Cluster-Former: Clustering-based Sparse Transformer for Long-Range Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2020-09-13T22:09:30Z)
Fast Transformers with Clustered Attention [14.448898156256478]
本稿では,クエリ毎の注目度を計算する代わりに,クエリをクラスタにグループ化し,セントロイドのみの注意度を算出するクラスタ型注意度を提案する。これにより、固定数のクラスタのシーケンス長に対する線形複雑性を持つモデルが得られる。我々は,2つの自動音声認識データセットに対するアプローチを評価し,そのモデルが与えられた計算予算に対して常にバニラ変換器より優れていることを示す。
論文参考訳（メタデータ） (2020-07-09T14:17:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。