論文の概要: Salca: A Sparsity-Aware Hardware Accelerator for Efficient Long-Context Attention Decoding
- arxiv url: http://arxiv.org/abs/2604.24820v1
- Date: Mon, 27 Apr 2026 14:06:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.519865
- Title: Salca: A Sparsity-Aware Hardware Accelerator for Efficient Long-Context Attention Decoding
- Title(参考訳): Salca: 長期意識デコーディングのためのスポーサリティ対応ハードウェアアクセラレータ
- Authors: Wang Fan, Wei Cao, Xi Zha, Kedi Ma, MingQian Sun, Jialin Chen, Fengzhe Zhang, Fan Zhang,
- Abstract要約: 長いコンテキストは、大きな言語モデルの能力を改善するが、深刻なハードウェアの課題を生じさせる。
本稿では,ハードウェア・ソフトウェア共同設計による長期的注意喚起のためのハードウェアアクセラレータを提案する。
私たちの設計では、A100よりも3.82倍のスピードアップと74.19倍のエネルギー効率を実現しています。
- 参考スコア(独自算出の注目度): 6.702271454978951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long contexts improve capabilities of large language models but pose serious hardware challenges: compute and memory footprints grow linearly with sequence length. Particularly, the decoding phase continuously accesses massive KV cache, dramatically increasing bandwidth and computing pressure. Existing accelerators are primarily designed and evaluated for short contexts. They suffer from significant performance degradation when processing long contexts. To bridge this gap, we identify the major bottleneck and present a hardware accelerator for long context attention decoding via hardware-software co-design. On the software side, we propose dual-compression dynamic sparse attention. It combines ultra-low-precision quantization with feature sparsity to minimize prediction overhead. A hardware-friendly approximate Top-K selection further reduces filter complexity from $O(n \log k)$ to $O(n)$. On the hardware side, we deeply optimize compute and memory access to tackle bottlenecks from intricate interplay between sparse attention and long contexts, and establish a performance model to derive the optimal co-design scheme. The resulting hardware adopts a fully pipelined parallel architecture and achieves $O(n)$ efficiency even for long sequences. Experiments show that our design delivers $3.82\times$ speedup and $74.19\times$ energy efficiency over A100. Compared to SOTA accelerators, this is the first ASIC accelerator that efficiently supports long context inference, with at least $3.5\times$ higher throughput and $2.08\times$ better energy efficiency.
- Abstract(参考訳): 長いコンテキストは大きな言語モデルの能力を向上するが、計算とメモリフットプリントはシーケンス長とともに線形に成長する。
特にデコードフェーズは、大規模なKVキャッシュに継続的にアクセスし、帯域幅と計算圧力を劇的に増加させる。
既存のアクセラレータは、主に短いコンテキストで設計され、評価される。
長いコンテキストを処理する場合、パフォーマンスが大幅に低下する。
このギャップを埋めるため,ハードウェア・ソフトウェア共同設計による長期的注意喚起のためのハードウェアアクセラレータを提案する。
ソフトウェア側では、二重圧縮動的スパースアテンションを提案する。
超低精度量子化と特徴空間を組み合わせ、予測オーバーヘッドを最小化する。
ハードウェアフレンドリーなTop-K選択により、フィルタの複雑さはさらに$O(n \log k)$から$O(n)$に減少する。
ハードウェア面では、スパースアテンションとロングコンテキストの複雑な相互作用からボトルネックに取り組むために計算とメモリアクセスを深く最適化し、最適な共設計スキームを導出するためのパフォーマンスモデルを確立する。
結果として得られたハードウェアは、完全にパイプライン化された並列アーキテクチャを採用し、長いシーケンスであっても$O(n)$効率を達成する。
実験の結果、我々の設計はA100よりも3.82倍のスピードアップと74.19倍のエネルギー効率を提供することがわかった。
SOTAアクセラレータと比較すると、この加速器は長いコンテキスト推論を効率的にサポートする最初のASICアクセラレータであり、少なくとも3.5\times$高いスループットと2.08\times$より良いエネルギー効率を持つ。
関連論文リスト
- Spava: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention [63.69228529380251]
Spavaはシーケンス並列フレームワークで、ロングビデオ推論に最適化されている。
Spavaは、FlashAttn、ZigZagRing、APBで12.72x、1.70x、1.18xのスピードアップを提供する。
論文 参考訳(メタデータ) (2026-01-29T09:23:13Z) - InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation [56.694702609077495]
ロングシーケンス処理は、現代の大規模言語モデルにとって重要な機能である。
InfLLM-V2は、ショートシーケンスからロングシーケンスまでのモデルをシームレスに適応する訓練可能なスパースアテンションフレームワークである。
実験では、InfLLM-V2は高密度の注意より4$times$速いが、98.1%と99.7%のパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-09-29T12:08:33Z) - VORTA: Efficient Video Diffusion via Routing Sparse Attention [54.84294780326206]
VORTAは2つの新しいコンポーネントを持つアクセラレーションフレームワークである。
VBenchの品質を損なうことなく、エンドツーエンドのスピードアップを$1.76タイムで実現している。
モデルキャッシングやステップ蒸留など、他の様々なアクセラレーション手法とシームレスに統合でき、14.41タイムのスピードアップに到達し、性能劣化を無視できる。
論文 参考訳(メタデータ) (2025-05-24T17:46:47Z) - SparseAccelerate: Efficient Long-Context Inference for Mid-Range GPUs [0.0]
SparseAccelerateは動的スパースアテンション手法であり、入力特性に基づいてその疎度パターンを適応する。
実験結果から,SparseAccelerateは最大1.04倍のTTTF遅延を32Kトークンで達成した。
論文 参考訳(メタデータ) (2024-12-09T04:27:03Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - SWAT: Scalable and Efficient Window Attention-based Transformers Acceleration on FPGAs [3.302913401404089]
スライディングウィンドウベースの静的スパースアテンションは、入力トークンのアテンションスコープを制限することで問題を緩和する。
本稿では,データフローを意識したFPGAベースのアクセラレーション設計であるSWATを提案する。
論文 参考訳(メタデータ) (2024-05-27T10:25:08Z) - Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA
Through Sparse Attention and Dynamic Pipelining [28.336502115532905]
本稿ではトランスフォーマーアクセラレーションのためのコヒーレントシーケンス長適応型アルゴリズム-ハードウェア共設計を提案する。
ハードウェアフレンドリーなスパースアテンション演算子と長編ハードウェアリソーススケジューリングアルゴリズムを開発した。
我々の設計は、非常に小さな精度の損失があり、CPUやGPUの実装と比較して80.2$times$と2.6$times$ Speedupがある。
論文 参考訳(メタデータ) (2022-08-07T05:48:38Z) - Easy and Efficient Transformer : Scalable Inference Solution For large
NLP mode [14.321889138798072]
本稿では,超大規模事前学習モデル最適化手法を提案する。
推論エンジンとして Easy and Efficient Transformer (EET) が提案されている。
EETは、コンテキストの長さに応じて1.5-15倍のスピードアップを達成します。
論文 参考訳(メタデータ) (2021-04-26T11:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。