論文の概要: SpAtten: Efficient Sparse Attention Architecture with Cascade Token and
Head Pruning
- arxiv url: http://arxiv.org/abs/2012.09852v2
- Date: Mon, 4 Jan 2021 03:49:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 12:39:26.341984
- Title: SpAtten: Efficient Sparse Attention Architecture with Cascade Token and
Head Pruning
- Title(参考訳): SpAtten: カスケードトークンとヘッドプルーニングによる効率的なスパースアテンションアーキテクチャ
- Authors: Hanrui Wang and Zhekai Zhang and Song Han
- Abstract要約: トークンスパース性,頭部スパース性,量子化の機会を活かし,注意の計算とメモリアクセスを削減した効率的なアルゴリズムアーキテクチャコデザインであるs spattenを提案する。
30のベンチマークでの実験では、SpAttenはDRAMアクセスを10.0xの精度で削減し、1.6x, 3.0x, 162x, 347xのスピードアップと1,4x, 3.2x, 1193x, 4059xの省エネを実現している。
- 参考スコア(独自算出の注目度): 14.922164154814123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The attention mechanism is becoming increasingly popular in Natural Language
Processing (NLP) applications, showing superior performance than convolutional
and recurrent architectures. However, general-purpose platforms such as CPUs
and GPUs are inefficient when performing attention inference due to complicated
data movement and low arithmetic intensity. Moreover, existing NN accelerators
mainly focus on optimizing convolutional or recurrent models, and cannot
efficiently support attention. In this paper, we present SpAtten, an efficient
algorithm-architecture co-design that leverages token sparsity, head sparsity,
and quantization opportunities to reduce the attention computation and memory
access. Inspired by the high redundancy of human languages, we propose the
novel cascade token pruning to prune away unimportant tokens in the sentence.
We also propose cascade head pruning to remove unessential heads. Cascade
pruning is fundamentally different from weight pruning since there is no
trainable weight in the attention mechanism, and the pruned tokens and heads
are selected on the fly. To efficiently support them on hardware, we design a
novel top-k engine to rank token and head importance scores with high
throughput. Furthermore, we propose progressive quantization that first fetches
MSBs only and performs the computation; if the confidence is low, it fetches
LSBs and recomputes the attention outputs, trading computation for memory
reduction.
Extensive experiments on 30 benchmarks show that, on average, SpAtten reduces
DRAM access by 10.0x with no accuracy loss, and achieves 1.6x, 3.0x, 162x, 347x
speedup, and 1,4x, 3.2x, 1193x, 4059x energy savings over A3 accelerator,
MNNFast accelerator, TITAN Xp GPU, Xeon CPU, respectively.
- Abstract(参考訳): 自然言語処理(NLP)アプリケーションでは注目のメカニズムがますます普及しており、畳み込みや繰り返しのアーキテクチャよりも優れたパフォーマンスを示している。
しかし、CPUやGPUのような汎用プラットフォームは、複雑なデータ移動と演算強度の低いため、注意推論を行う際に非効率である。
さらに、既存のNNアクセラレータは主に畳み込みモデルやリカレントモデルの最適化に重点を置いており、注意を効率的に支援することはできない。
本稿では,トークンスパース性,頭部スパース性,量子化の機会を活かし,注意力計算とメモリアクセスを削減した効率的なアルゴリズムアーキテクチャコデザインであるs spattenを提案する。
人間言語の冗長性の高さに触発されて,文中の重要でないトークンを削り取るために,新しいカスケードトークンの刈り取りを提案する。
また,不要な頭部を除去するカスケードヘッドプルーニングを提案する。
注意機構に訓練可能な重みがないため、カスケードプルーニングは、基本的に重量プルーニングと異なり、プルーニングされたトークンとヘッドがフライで選択される。
ハードウェア上でそれらを効率的にサポートするために,トークンと頭部重大スコアを高いスループットでランク付けする新しいトップkエンジンを設計する。
さらに、まずMSBのみをフェッチし、その計算を実行するプログレッシブ量子化を提案し、信頼度が低ければLSBをフェッチし、アテンション出力を再計算し、メモリ削減のためのトレーディング計算を行う。
30のベンチマークにおいて、SpAttenは平均してDRAMアクセスを10.0xの精度で削減し、1.6x, 3.0x, 162x, 347xのスピードアップと1,4x, 3.2x, 1193x, 4059xの省エネをA3アクセラレータ、MNNFastアクセラレータ、TITAN Xp GPU、Xeon CPUで達成している。
関連論文リスト
- Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image
Segmentation [98.90623605283564]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Learning to Solve Combinatorial Graph Partitioning Problems via
Efficient Exploration [72.15369769265398]
実験により、ECORDは最大カット問題に対するRLアルゴリズムのための新しいSOTAを実現する。
最も近い競合と比較して、ECORDは最適性ギャップを最大73%削減する。
論文 参考訳(メタデータ) (2022-05-27T17:13:10Z) - Efficient Hardware Acceleration of Sparsely Active Convolutional Spiking
Neural Networks [0.0]
スパイキングニューラルネットワーク(SNN)は、標準のニューラルネットワークよりも効率的な計算を実現するために、イベントベースで計算する。
本稿では,高いアクティベーション間隔を有する畳み込みSNNの処理に最適化された新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-23T14:18:58Z) - I-GCN: A Graph Convolutional Network Accelerator with Runtime Locality
Enhancement through Islandization [29.070089261016832]
グラフ畳み込みネットワーク(GCN)は、過去3年間、大きな注目を集めてきた。
GCNの高速ハードウェアアクセラレーションは、非常に重要であるが、さらに難しい。
本稿では,GCN推論のためのハードウェアアクセラレータI-GCNを提案する。
論文 参考訳(メタデータ) (2022-03-07T18:56:40Z) - Dual-side Sparse Tensor Core [18.204976918925635]
既存のGPUは、重みからしか利用できないが、アクティベーションではない。
両面間隔(重みとアクティベーション間隔)を効率的に活用する新しいアーキテクチャを提案する。
我々の設計では、両面の間隔を完全に解き、最小限のハードウェアオーバーヘッドで最大1桁の性能を向上させることができる。
論文 参考訳(メタデータ) (2021-05-20T07:36:16Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Taming GANs with Lookahead-Minmax [63.90038365274479]
MNIST, SVHN, CIFAR-10, ImageNetによる実験結果から, Lookahead-minmaxとAdam, Exgradientの併用が明らかとなった。
30倍のパラメータと16倍のミニバッチを使用して、クラスラベルを使わずに12.19のFIDを得ることにより、CIFAR-10上でクラス依存のBigGANのパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2020-06-25T17:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。