論文の概要: SALO: An Efficient Spatial Accelerator Enabling Hybrid Sparse Attention
Mechanisms for Long Sequences
- arxiv url: http://arxiv.org/abs/2206.14550v1
- Date: Wed, 29 Jun 2022 12:01:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 00:14:30.900822
- Title: SALO: An Efficient Spatial Accelerator Enabling Hybrid Sparse Attention
Mechanisms for Long Sequences
- Title(参考訳): SALO:長いシーケンスに対するハイブリッドスパースアテンション機構の効率的な空間加速器
- Authors: Guan Shen, Jieru Zhao, Quan Chen, Jingwen Leng, Chao Li, Minyi Guo
- Abstract要約: 長いシーケンスに対するハイブリッドスパースアテンション機構を実現するためのSALOを提案する。
SALOには、ハイブリッドスパース注意パターンをハードウェアにマッピングするデータスケジューラと、空間加速器が含まれている。
我々は,SALOがGPUやCPUの実装と比較して平均17.66倍,89.33倍の高速化を実現していることを示す。
- 参考スコア(独自算出の注目度): 16.332650428422443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The attention mechanisms of transformers effectively extract pertinent
information from the input sequence. However, the quadratic complexity of
self-attention w.r.t the sequence length incurs heavy computational and memory
burdens, especially for tasks with long sequences. Existing accelerators face
performance degradation in these tasks. To this end, we propose SALO to enable
hybrid sparse attention mechanisms for long sequences. SALO contains a data
scheduler to map hybrid sparse attention patterns onto hardware and a spatial
accelerator to perform the efficient attention computation. We show that SALO
achieves 17.66x and 89.33x speedup on average compared to GPU and CPU
implementations, respectively, on typical workloads, i.e., Longformer and ViL.
- Abstract(参考訳): 変換器の注意機構は、入力シーケンスから関連する情報を効果的に抽出する。
しかし、シーケンシャル長の2次複雑性は、特に長いシーケンシャルなタスクにおいて、計算とメモリの重荷を負う。
既存のアクセラレータはこれらのタスクのパフォーマンス低下に直面します。
この目的のために,長いシーケンスに対するハイブリッドスパースアテンション機構を実現するためのSALOを提案する。
SALOには、ハイブリッドスパース注意パターンをハードウェアにマッピングするデータスケジューラと、効率的な注意計算を行うための空間加速器が含まれている。
典型的なワークロード,すなわちLongformerとViLでは,それぞれGPUとCPUの実装と比較して平均17.66倍,89.33倍のスピードアップを実現している。
関連論文リスト
- Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。
K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。
そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - Faster Diffusion Action Segmentation [9.868244939496678]
時間的行動分類(TAS)はビデオ解析において不可欠な課題であり、連続したフレームを別のアクションセグメントに分割し分類することを目的としている。
拡散モデルの最近の進歩は、安定したトレーニングプロセスと高品質な生成能力により、TASタスクにおいて大きな成功を収めている。
本稿では,効率的かつ高性能なTASアルゴリズムであるEffiDiffActを提案する。
論文 参考訳(メタデータ) (2024-08-04T13:23:18Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences [96.74779792715819]
本稿では,BurstAttention'という分散アテンションフレームワークを提案し,メモリアクセスと通信操作を最適化する。
異なる長さ設定下での実験結果は、BurstAttentionが長いシーケンスを処理する上で大きな利点があることを示している。
論文 参考訳(メタデータ) (2024-03-14T12:51:58Z) - Bifurcated Attention: Accelerating Massively Parallel Decoding with Shared Prefixes in LLMs [39.16152482491236]
Bifurcated attentionは、共有コンテキストバッチデコードシナリオにおける言語モデル推論を強化するために設計された手法である。
提案手法は,高バッチサイズおよび拡張コンテキスト長のレイテンシに寄与する重要な要因である冗長メモリIOコストの課題に対処する。
論文 参考訳(メタデータ) (2024-03-13T16:30:57Z) - Efficient Long-Range Transformers: You Need to Attend More, but Not
Necessarily at Every Layer [36.75562615596186]
我々は、Mixed Attention Spansを用いた実装が容易な変圧器であるMASFormerを提案する。
MASFormerは、長距離依存関係をキャプチャするために完全に注意を払っているが、少数の層しか持たない。
実験の結果,1.3BパラメータのデコーダのみのMASFormerモデルは,バニラ変圧器との競合性能を十分に発揮できることがわかった。
論文 参考訳(メタデータ) (2023-10-19T03:32:05Z) - HyperAttention: Long-context Attention in Near-Linear Time [78.33061530066185]
本稿では,長期的文脈の複雑さの増大に伴う計算課題に対処するため,HyperAttentionという近似的な注意機構を提案する。
実証的には、大規模なエントリを特定するためにLocality Sensitive Hashing(LSH)を使用して、HyperAttentionは既存のメソッドよりも優れています。
各種長文長データセットにおけるHyperAttentionの実証的性能を検証した。
論文 参考訳(メタデータ) (2023-10-09T17:05:25Z) - Does Long-Term Series Forecasting Need Complex Attention and Extra Long
Inputs? [21.15722677855935]
トランスフォーマーベースのモデルは、様々な時系列タスクにおいて印象的なパフォーマンスを達成した。
近年、LTSF(Long-Term Series Forecasting)タスクも注目されている。
トランスフォーマーベースの手法を要求される計算複雑性と長いシーケンスのため、LTSFタスクへの適用には2つの大きな問題がある。
論文 参考訳(メタデータ) (2023-06-08T08:37:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。