論文の概要: ESACT: An End-to-End Sparse Accelerator for Compute-Intensive Transformers via Local Similarity
- arxiv url: http://arxiv.org/abs/2512.02403v1
- Date: Tue, 02 Dec 2025 04:28:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.719303
- Title: ESACT: An End-to-End Sparse Accelerator for Compute-Intensive Transformers via Local Similarity
- Title(参考訳): ESACT:局所的類似性を利用した計算集中型変圧器の終端スパース加速器
- Authors: Hongxiang Liu, Zhifang Deng, Tong Pu, Shengli Lu,
- Abstract要約: 本稿では,計算集約型変換器のためのエンドツーエンドスパースアクセラレータESACTを提案する。
以上の結果から,SPLSは全体の計算量を52.03%削減し,精度を1%以下に抑えることができた。
ESACTは3.29TOPS/Wの終端エネルギー効率を達成し、SOTAの注意加速器であるSpAttenとSangerの2.95倍と2.26倍の注意レベルエネルギー効率を向上させる。
- 参考スコア(独自算出の注目度): 1.0732935873226022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers, composed of QKV generation, attention computation, and FFNs, have become the dominant model across various domains due to their outstanding performance. However, their high computational cost hinders efficient hardware deployment. Sparsity offers a promising solution, yet most existing accelerators exploit only intra-row sparsity in attention, while few consider inter-row sparsity. Approaches leveraging inter-row sparsity often rely on costly global similarity estimation, which diminishes the acceleration benefits of sparsity, and typically apply sparsity to only one or two transformer components. Through careful analysis of the attention distribution and computation flow, we observe that local similarity allows end-to-end sparse acceleration with lower computational overhead. Motivated by this observation, we propose ESACT, an end-to-end sparse accelerator for compute-intensive Transformers. ESACT centers on the Sparsity Prediction with Local Similarity (SPLS) mechanism, which leverages HLog quantization to accurately predict local attention sparsity prior to QK generation, achieving efficient sparsity across all transformer components. To support efficient hardware realization, we introduce three architectural innovations. Experimental results on 26 benchmarks demonstrate that SPLS reduces total computation by 52.03% with less than 1% accuracy loss. ESACT achieves an end-to-end energy efficiency of 3.29 TOPS/W, and improves attention-level energy efficiency by 2.95x and 2.26x over SOTA attention accelerators SpAtten and Sanger, respectively.
- Abstract(参考訳): QKV生成、アテンション計算、FFNから構成されるトランスフォーマーは、その卓越した性能のため、様々な領域で支配的なモデルとなっている。
しかし、その高い計算コストは、効率的なハードウェアデプロイメントを妨げる。
スパシティは有望なソリューションを提供するが、ほとんどの既存のアクセラレーターは、注目されているのはロー内スパシティのみであり、ロー間スパシティを考慮に入れているものはほとんどない。
ロー間隔を利用するアプローチは、しばしばコストのかかるグローバルな類似度推定に頼り、スパシティの加速効果を低下させ、通常、1つまたは2つのトランスフォーマーコンポーネントのみにスパシティを適用する。
注意分布と計算フローを慎重に解析することにより、局所的類似性は計算オーバーヘッドを小さくして、エンドツーエンドのスパース加速を可能にする。
本研究の目的は,計算集約型トランスフォーマーの終端から終端までのスパースアクセラレータであるESACTを提案することである。
ESACTは、HLog量子化を活用して、QK生成前の局所的な注意間隔を正確に予測し、すべてのトランスフォーマーコンポーネント間の効率的なスパシティを実現するSPLS(Sparsity Prediction with Local similarity)メカニズムを中心としている。
効率的なハードウェアの実現を支援するために,3つのアーキテクチャ革新を導入する。
26のベンチマーク実験の結果、SPLSは全体の計算量を1%未満の精度で52.03%削減することを示した。
ESACTは3.29TOPS/Wの終端エネルギー効率を達成し、SOTAの注意加速器SpAttenとSangerの2.95倍と2.26倍の注意レベルエネルギー効率をそれぞれ向上させる。
関連論文リスト
- SparOA: Sparse and Operator-aware Hybrid Scheduling for Edge DNN Inference [24.492347669238175]
SparOAはディープニューラルネットワーク(DNN)モデルのためのハイブリッド推論フレームワークである。
演算子スケジューリングを最適化するために、疎度と計算強度の両方を使用する。
その結果、SparOAは全てのベースラインと比較して平均1.22-1.31倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2025-11-21T09:45:28Z) - Spark Transformer: Reactivating Sparsity in FFN and Attention [53.221448818147024]
本稿では, FFNとアテンション機構の両方において, 高レベルのアクティベーション間隔を実現する新しいアーキテクチャであるSpark Transformerを紹介する。
これによりFLOPの2.5倍の削減が可能となり、CPUでは1.79倍、GPUでは1.40倍となる。
論文 参考訳(メタデータ) (2025-06-07T03:51:13Z) - Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。
本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。
1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文 参考訳(メタデータ) (2025-05-16T13:48:33Z) - BEExformer: A Fast Inferencing Binarized Transformer with Early Exits [2.7651063843287718]
BAT(Binarized Early Exit Transformer)とEE(Early Exit)を統合した最初の選択型学習ベーストランスであるBEExformerを紹介する。
BATは符号関数に微分可能な二階近似を用い、重みの符号と大きさの両方を捉える勾配を可能にする。
EEメカニズムは、ソフトルーティング損失推定を伴う中間変圧器ブロック間のエントロピーの分数還元に係わる。
これにより、FLOPを52.08%削減して推論を加速し、深層ネットワークに固有の「過剰な」問題を解くことで精度を2.89%向上させる。
論文 参考訳(メタデータ) (2024-12-06T17:58:14Z) - Co-Designing Binarized Transformer and Hardware Accelerator for Efficient End-to-End Edge Deployment [3.391499691517567]
トランスフォーマーモデルはAIタスクに革命をもたらしたが、その大きなサイズはリソース制約やレイテンシクリティカルなエッジデバイスへの実際のデプロイメントを妨げる。
本稿では, アルゴリズム, ハードウェア, 共同最適化の3つの側面から, トランスフォーマーのエンドツーエンド配置を効率的に行うための設計手法を提案する。
実験の結果,2.14-49.37倍のスループット向上と3.72-88.53倍のエネルギー効率を実現した。
論文 参考訳(メタデータ) (2024-07-16T12:36:10Z) - Point Transformer V3: Simpler, Faster, Stronger [88.80496333515325]
本稿では,ポイントクラウド処理における精度と効率のトレードオフを克服することに焦点を当てる。
本稿では,特定のメカニズムの精度よりもシンプルさと効率を優先するポイントトランスフォーマーV3(PTv3)を提案する。
PTv3は、屋内と屋外の両方のシナリオにまたがる20以上の下流タスクで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-15T18:59:59Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - Efficient Linear Attention for Fast and Accurate Keypoint Matching [0.9699586426043882]
近年、トランスフォーマーはスパースマッチングにおける最先端の性能を提供し、高性能な3Dビジョンアプリケーションの実現に不可欠である。
しかし、これらの変換器は、注意機構の2次計算の複雑さのために効率を欠いている。
本稿では,グローバル情報とローカル情報の両方をスパースキーポイントから集約することで,高精度なアグリゲーションを実現する。
論文 参考訳(メタデータ) (2022-04-16T06:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。