論文の概要: SALO: An Efficient Spatial Accelerator Enabling Hybrid Sparse Attention
Mechanisms for Long Sequences
- arxiv url: http://arxiv.org/abs/2206.14550v1
- Date: Wed, 29 Jun 2022 12:01:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 00:14:30.900822
- Title: SALO: An Efficient Spatial Accelerator Enabling Hybrid Sparse Attention
Mechanisms for Long Sequences
- Title(参考訳): SALO:長いシーケンスに対するハイブリッドスパースアテンション機構の効率的な空間加速器
- Authors: Guan Shen, Jieru Zhao, Quan Chen, Jingwen Leng, Chao Li, Minyi Guo
- Abstract要約: 長いシーケンスに対するハイブリッドスパースアテンション機構を実現するためのSALOを提案する。
SALOには、ハイブリッドスパース注意パターンをハードウェアにマッピングするデータスケジューラと、空間加速器が含まれている。
我々は,SALOがGPUやCPUの実装と比較して平均17.66倍,89.33倍の高速化を実現していることを示す。
- 参考スコア(独自算出の注目度): 16.332650428422443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The attention mechanisms of transformers effectively extract pertinent
information from the input sequence. However, the quadratic complexity of
self-attention w.r.t the sequence length incurs heavy computational and memory
burdens, especially for tasks with long sequences. Existing accelerators face
performance degradation in these tasks. To this end, we propose SALO to enable
hybrid sparse attention mechanisms for long sequences. SALO contains a data
scheduler to map hybrid sparse attention patterns onto hardware and a spatial
accelerator to perform the efficient attention computation. We show that SALO
achieves 17.66x and 89.33x speedup on average compared to GPU and CPU
implementations, respectively, on typical workloads, i.e., Longformer and ViL.
- Abstract(参考訳): 変換器の注意機構は、入力シーケンスから関連する情報を効果的に抽出する。
しかし、シーケンシャル長の2次複雑性は、特に長いシーケンシャルなタスクにおいて、計算とメモリの重荷を負う。
既存のアクセラレータはこれらのタスクのパフォーマンス低下に直面します。
この目的のために,長いシーケンスに対するハイブリッドスパースアテンション機構を実現するためのSALOを提案する。
SALOには、ハイブリッドスパース注意パターンをハードウェアにマッピングするデータスケジューラと、効率的な注意計算を行うための空間加速器が含まれている。
典型的なワークロード,すなわちLongformerとViLでは,それぞれGPUとCPUの実装と比較して平均17.66倍,89.33倍のスピードアップを実現している。
関連論文リスト
- BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences [89.52560850737663]
本稿では,BurstAttention'という分散アテンションフレームワークを提案し,メモリアクセスと通信操作を最適化する。
異なる長さ設定下での実験結果は、BurstAttentionが長いシーケンスを処理する上で大きな利点があることを示している。
論文 参考訳(メタデータ) (2024-03-14T12:51:58Z) - Efficient Long-Range Transformers: You Need to Attend More, but Not
Necessarily at Every Layer [36.75562615596186]
我々は、Mixed Attention Spansを用いた実装が容易な変圧器であるMASFormerを提案する。
MASFormerは、長距離依存関係をキャプチャするために完全に注意を払っているが、少数の層しか持たない。
実験の結果,1.3BパラメータのデコーダのみのMASFormerモデルは,バニラ変圧器との競合性能を十分に発揮できることがわかった。
論文 参考訳(メタデータ) (2023-10-19T03:32:05Z) - HyperAttention: Long-context Attention in Near-Linear Time [78.33061530066185]
本稿では,長期的文脈の複雑さの増大に伴う計算課題に対処するため,HyperAttentionという近似的な注意機構を提案する。
実証的には、大規模なエントリを特定するためにLocality Sensitive Hashing(LSH)を使用して、HyperAttentionは既存のメソッドよりも優れています。
各種長文長データセットにおけるHyperAttentionの実証的性能を検証した。
論文 参考訳(メタデータ) (2023-10-09T17:05:25Z) - Does Long-Term Series Forecasting Need Complex Attention and Extra Long
Inputs? [21.15722677855935]
トランスフォーマーベースのモデルは、様々な時系列タスクにおいて印象的なパフォーマンスを達成した。
近年、LTSF(Long-Term Series Forecasting)タスクも注目されている。
トランスフォーマーベースの手法を要求される計算複雑性と長いシーケンスのため、LTSFタスクへの適用には2つの大きな問題がある。
論文 参考訳(メタデータ) (2023-06-08T08:37:49Z) - Exploring Attention Map Reuse for Efficient Transformer Neural Networks [18.335207404178547]
トランスフォーマーベースのディープニューラルネットワークは、様々なシーケンスアプリケーションで大きな成功を収めている。
キーモジュールは自己アテンション(SA)であり、位置間の距離に関係なく、シーケンス全体から特徴を抽出する。
近年,複数のSA層をグループ化して1つのアテンションマップを共有するアテンションマップの再利用が提案され,音声認識モデルの大幅な高速化を実現している。
論文 参考訳(メタデータ) (2023-01-29T13:38:45Z) - DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention [53.02648818164273]
動的双線形低ランク注意(DBA)という,効率的かつ効果的な注意機構を提案する。
DBAは入力感度の動的射影行列によってシーケンス長を圧縮し、線形時間と空間の複雑さを実現する。
様々なシーケンス長条件のタスクに対する実験は、DBAが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T03:06:36Z) - LSG Attention: Extrapolation of pretrained Transformers to long
sequences [0.0]
ローカル・スパース・グローバル・アテンションに依存したLSGアーキテクチャを導入する。
長文の分類と要約作業においてLSGの注意は高速で効率的で競争力があることを示す。
我々は新しいモデルをトレーニングし、このメカニズムに基づいて既存のモデルを適応するためのツールを提案する。
論文 参考訳(メタデータ) (2022-10-13T13:10:41Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z) - Sketching as a Tool for Understanding and Accelerating Self-attention
for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。
我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。
理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文 参考訳(メタデータ) (2021-12-10T06:58:05Z) - Informer: Beyond Efficient Transformer for Long Sequence Time-Series
Forecasting [25.417560221400347]
長周期時系列予測(LSTF)は高い予測能力を必要とする。
最近の研究は、予測能力を高めるトランスフォーマーの可能性を示しています。
我々は3つの特徴を有するlstf用効率的なトランスフォーマーモデル,informerを設計した。
論文 参考訳(メタデータ) (2020-12-14T11:43:09Z) - SAC: Accelerating and Structuring Self-Attention via Sparse Adaptive
Connection [51.376723069962]
本稿では,スパース適応接続(Sparse Adaptive Connection)を提案する。
SACでは、入力シーケンスをグラフとみなし、リンクノード間のアテンション操作を行う。
我々は,SACが最先端モデルと競合する一方で,メモリコストを大幅に削減することを示した。
論文 参考訳(メタデータ) (2020-03-22T07:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。