Fugu-MT 論文翻訳(概要): SALO: An Efficient Spatial Accelerator Enabling Hybrid Sparse Attention Mechanisms for Long Sequences

論文の概要: SALO: An Efficient Spatial Accelerator Enabling Hybrid Sparse Attention Mechanisms for Long Sequences

arxiv url: http://arxiv.org/abs/2206.14550v1
Date: Wed, 29 Jun 2022 12:01:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-01 00:14:30.900822
Title: SALO: An Efficient Spatial Accelerator Enabling Hybrid Sparse Attention Mechanisms for Long Sequences
Title（参考訳）: SALO:長いシーケンスに対するハイブリッドスパースアテンション機構の効率的な空間加速器
Authors: Guan Shen, Jieru Zhao, Quan Chen, Jingwen Leng, Chao Li, Minyi Guo
Abstract要約: 長いシーケンスに対するハイブリッドスパースアテンション機構を実現するためのSALOを提案する。 SALOには、ハイブリッドスパース注意パターンをハードウェアにマッピングするデータスケジューラと、空間加速器が含まれている。我々は,SALOがGPUやCPUの実装と比較して平均17.66倍,89.33倍の高速化を実現していることを示す。
参考スコア（独自算出の注目度）: 16.332650428422443
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The attention mechanisms of transformers effectively extract pertinent information from the input sequence. However, the quadratic complexity of self-attention w.r.t the sequence length incurs heavy computational and memory burdens, especially for tasks with long sequences. Existing accelerators face performance degradation in these tasks. To this end, we propose SALO to enable hybrid sparse attention mechanisms for long sequences. SALO contains a data scheduler to map hybrid sparse attention patterns onto hardware and a spatial accelerator to perform the efficient attention computation. We show that SALO achieves 17.66x and 89.33x speedup on average compared to GPU and CPU implementations, respectively, on typical workloads, i.e., Longformer and ViL.
Abstract（参考訳）: 変換器の注意機構は、入力シーケンスから関連する情報を効果的に抽出する。しかし、シーケンシャル長の2次複雑性は、特に長いシーケンシャルなタスクにおいて、計算とメモリの重荷を負う。既存のアクセラレータはこれらのタスクのパフォーマンス低下に直面します。この目的のために,長いシーケンスに対するハイブリッドスパースアテンション機構を実現するためのSALOを提案する。 SALOには、ハイブリッドスパース注意パターンをハードウェアにマッピングするデータスケジューラと、効率的な注意計算を行うための空間加速器が含まれている。典型的なワークロード,すなわちLongformerとViLでは,それぞれGPUとCPUの実装と比較して平均17.66倍,89.33倍のスピードアップを実現している。

関連論文リスト

FastCar: Cache Attentive Replay for Fast Auto-Regressive Video Generation on the Edge [60.000984252907195]
自動回帰(AR)モデルは、サンプリング効率が優れているため、近年、視覚生成タスクにおいて有望であることが示されている。ビデオ生成は、コヒーレントな時間フレームを生成するために、かなり多くのトークンを必要とする。我々は,時間的冗長性を探究して,ARビデオ生成のデコードフェーズを高速化する textbfFastCar フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-17T05:00:39Z)
APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs [81.5049387116454]
我々は、効率的な長文推論フレームワークであるAPBを紹介する。 APBはプリフィル速度を高めるためにマルチホスト近似アテンションを使用する。 APBはFlashAttn、RingAttn、StarAttnと比較して最大9.2x、4.2x、1.6xの速度を実現している。
論文参考訳（メタデータ） (2025-02-17T17:59:56Z)
Longer Attention Span: Increasing Transformer Context Length with Sparse Graph Processing Techniques [0.0]
本稿では,トークンをグラフのノードとして認識し,注目マスクがグラフのエッジを決定する,注目のグラフコンピューティングビューを提案する。この観点から,注意機構を実装するグラフ処理アルゴリズムを開発した。我々のアルゴリズムは1つのNVIDIA A100 GPUで1億6000万の非常に長いシーケンス長を達成できます。
論文参考訳（メタデータ） (2025-01-31T22:05:00Z)
Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。 K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文参考訳（メタデータ） (2024-11-14T18:54:19Z)
Faster Diffusion Action Segmentation [9.868244939496678]
時間的行動分類(TAS)はビデオ解析において不可欠な課題であり、連続したフレームを別のアクションセグメントに分割し分類することを目的としている。拡散モデルの最近の進歩は、安定したトレーニングプロセスと高品質な生成能力により、TASタスクにおいて大きな成功を収めている。本稿では,効率的かつ高性能なTASアルゴリズムであるEffiDiffActを提案する。
論文参考訳（メタデータ） (2024-08-04T13:23:18Z)
Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T15:55:59Z)
Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文参考訳（メタデータ） (2024-06-12T12:12:38Z)
LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。 LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文参考訳（メタデータ） (2024-04-17T08:26:34Z)
BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences [96.74779792715819]
本稿では,BurstAttention'という分散アテンションフレームワークを提案し,メモリアクセスと通信操作を最適化する。異なる長さ設定下での実験結果は、BurstAttentionが長いシーケンスを処理する上で大きな利点があることを示している。
論文参考訳（メタデータ） (2024-03-14T12:51:58Z)
Bifurcated Attention: Accelerating Massively Parallel Decoding with Shared Prefixes in LLMs [39.16152482491236]
Bifurcated attentionは、共有コンテキストバッチデコードシナリオにおける言語モデル推論を強化するために設計された手法である。提案手法は,高バッチサイズおよび拡張コンテキスト長のレイテンシに寄与する重要な要因である冗長メモリIOコストの課題に対処する。
論文参考訳（メタデータ） (2024-03-13T16:30:57Z)
Efficient Long-Range Transformers: You Need to Attend More, but Not Necessarily at Every Layer [36.75562615596186]
我々は、Mixed Attention Spansを用いた実装が容易な変圧器であるMASFormerを提案する。 MASFormerは、長距離依存関係をキャプチャするために完全に注意を払っているが、少数の層しか持たない。実験の結果,1.3BパラメータのデコーダのみのMASFormerモデルは,バニラ変圧器との競合性能を十分に発揮できることがわかった。
論文参考訳（メタデータ） (2023-10-19T03:32:05Z)
HyperAttention: Long-context Attention in Near-Linear Time [78.33061530066185]
本稿では,長期的文脈の複雑さの増大に伴う計算課題に対処するため,HyperAttentionという近似的な注意機構を提案する。実証的には、大規模なエントリを特定するためにLocality Sensitive Hashing(LSH)を使用して、HyperAttentionは既存のメソッドよりも優れています。各種長文長データセットにおけるHyperAttentionの実証的性能を検証した。
論文参考訳（メタデータ） (2023-10-09T17:05:25Z)
Does Long-Term Series Forecasting Need Complex Attention and Extra Long Inputs? [21.15722677855935]
トランスフォーマーベースのモデルは、様々な時系列タスクにおいて印象的なパフォーマンスを達成した。近年、LTSF(Long-Term Series Forecasting)タスクも注目されている。トランスフォーマーベースの手法を要求される計算複雑性と長いシーケンスのため、LTSFタスクへの適用には2つの大きな問題がある。
論文参考訳（メタデータ） (2023-06-08T08:37:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。