Fugu-MT 論文翻訳(概要): SpAtten: Efficient Sparse Attention Architecture with Cascade Token and Head Pruning

論文の概要: SpAtten: Efficient Sparse Attention Architecture with Cascade Token and Head Pruning

arxiv url: http://arxiv.org/abs/2012.09852v2
Date: Mon, 4 Jan 2021 03:49:57 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-02 12:39:26.341984
Title: SpAtten: Efficient Sparse Attention Architecture with Cascade Token and Head Pruning
Title（参考訳）: SpAtten: カスケードトークンとヘッドプルーニングによる効率的なスパースアテンションアーキテクチャ
Authors: Hanrui Wang and Zhekai Zhang and Song Han
Abstract要約: トークンスパース性,頭部スパース性,量子化の機会を活かし,注意の計算とメモリアクセスを削減した効率的なアルゴリズムアーキテクチャコデザインであるs spattenを提案する。 30のベンチマークでの実験では、SpAttenはDRAMアクセスを10.0xの精度で削減し、1.6x, 3.0x, 162x, 347xのスピードアップと1,4x, 3.2x, 1193x, 4059xの省エネを実現している。
参考スコア（独自算出の注目度）: 14.922164154814123
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The attention mechanism is becoming increasingly popular in Natural Language Processing (NLP) applications, showing superior performance than convolutional and recurrent architectures. However, general-purpose platforms such as CPUs and GPUs are inefficient when performing attention inference due to complicated data movement and low arithmetic intensity. Moreover, existing NN accelerators mainly focus on optimizing convolutional or recurrent models, and cannot efficiently support attention. In this paper, we present SpAtten, an efficient algorithm-architecture co-design that leverages token sparsity, head sparsity, and quantization opportunities to reduce the attention computation and memory access. Inspired by the high redundancy of human languages, we propose the novel cascade token pruning to prune away unimportant tokens in the sentence. We also propose cascade head pruning to remove unessential heads. Cascade pruning is fundamentally different from weight pruning since there is no trainable weight in the attention mechanism, and the pruned tokens and heads are selected on the fly. To efficiently support them on hardware, we design a novel top-k engine to rank token and head importance scores with high throughput. Furthermore, we propose progressive quantization that first fetches MSBs only and performs the computation; if the confidence is low, it fetches LSBs and recomputes the attention outputs, trading computation for memory reduction. Extensive experiments on 30 benchmarks show that, on average, SpAtten reduces DRAM access by 10.0x with no accuracy loss, and achieves 1.6x, 3.0x, 162x, 347x speedup, and 1,4x, 3.2x, 1193x, 4059x energy savings over A3 accelerator, MNNFast accelerator, TITAN Xp GPU, Xeon CPU, respectively.
Abstract（参考訳）: 自然言語処理(NLP)アプリケーションでは注目のメカニズムがますます普及しており、畳み込みや繰り返しのアーキテクチャよりも優れたパフォーマンスを示している。しかし、CPUやGPUのような汎用プラットフォームは、複雑なデータ移動と演算強度の低いため、注意推論を行う際に非効率である。さらに、既存のNNアクセラレータは主に畳み込みモデルやリカレントモデルの最適化に重点を置いており、注意を効率的に支援することはできない。本稿では,トークンスパース性,頭部スパース性,量子化の機会を活かし,注意力計算とメモリアクセスを削減した効率的なアルゴリズムアーキテクチャコデザインであるs spattenを提案する。人間言語の冗長性の高さに触発されて,文中の重要でないトークンを削り取るために,新しいカスケードトークンの刈り取りを提案する。また,不要な頭部を除去するカスケードヘッドプルーニングを提案する。注意機構に訓練可能な重みがないため、カスケードプルーニングは、基本的に重量プルーニングと異なり、プルーニングされたトークンとヘッドがフライで選択される。ハードウェア上でそれらを効率的にサポートするために,トークンと頭部重大スコアを高いスループットでランク付けする新しいトップkエンジンを設計する。さらに、まずMSBのみをフェッチし、その計算を実行するプログレッシブ量子化を提案し、信頼度が低ければLSBをフェッチし、アテンション出力を再計算し、メモリ削減のためのトレーディング計算を行う。 30のベンチマークにおいて、SpAttenは平均してDRAMアクセスを10.0xの精度で削減し、1.6x, 3.0x, 162x, 347xのスピードアップと1,4x, 3.2x, 1193x, 4059xの省エネをA3アクセラレータ、MNNFastアクセラレータ、TITAN Xp GPU、Xeon CPUで達成している。

関連論文リスト

Accelerating 3D Gaussian Splatting with Neural Sorting and Axis-Oriented Rasterization [14.87046071090259]
3D Gaussian Splatting (3DGS) は、最近、高品質で効率的なビュー合成において大きな注目を集めている。アルゴリズムの性能は素晴らしいが、リソースに制約のあるデバイスのリアルタイムレンダリングは、厳しい電力と地域予算のために依然として大きな課題だ。
論文参考訳（メタデータ） (2025-06-08T10:14:54Z)
Spark Transformer: Reactivating Sparsity in FFN and Attention [63.20677098823873]
本稿では, FFNとアテンション機構の両方において, 高レベルのアクティベーション間隔を実現する新しいアーキテクチャであるSpark Transformerを紹介する。これによりFLOPの2.5倍の削減が可能となり、CPUでは1.79倍、GPUでは1.40倍となる。
論文参考訳（メタデータ） (2025-06-07T03:51:13Z)
Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation [57.56385490252605]
拡散変換器(DiT)はビデオ生成に必須であるが,注意の2次複雑さにより遅延が著しく低下する。 SVG2は,識別精度を最大化し,無駄を最小化する学習自由フレームワークである。
論文参考訳（メタデータ） (2025-05-24T21:30:29Z)
Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。 1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文参考訳（メタデータ） (2025-05-16T13:48:33Z)
A Reconfigurable Stream-Based FPGA Accelerator for Bayesian Confidence Propagation Neural Networks [0.0]
脳にインスパイアされたアルゴリズムは、古典的なディープラーニング手法に代わる魅力的な、新たな選択肢だ。 BCPNNは、機械学習と計算神経科学研究の両方にとって重要なツールである。 BCPNNは、他のモデルと比較して学習やメモリリコールといったタスクで最先端のパフォーマンスに達することができる。我々は、Xilinx Vitis High-Level Synthesis (HLS) フローを用いたFPGA(Field-Programmable Gate Array)を用いて、BCPNN用のカスタムストリームベースのアクセラレータを設計する。
論文参考訳（メタデータ） (2025-03-03T14:06:43Z)
Kolmogorov-Arnold Transformer [72.88137795439407]
Kolmogorov-Arnold Transformer(KAT)は,階層をKAN(Kolmogorov-Arnold Network)層に置き換える新しいアーキテクチャである。 C1)基本関数,(C2)非効率,(C3)重みの3つの主要な課題を特定する。これらの設計により、KATは従来のトランスフォーマーよりも優れている。
論文参考訳（メタデータ） (2024-09-16T17:54:51Z)
Hybrid Dynamic Pruning: A Pathway to Efficient Transformer Inference [1.0919012968294923]
本稿では,頭部の疎度を用いてトランスフォーマーを高速化し,疎度をブロックし,注意の計算を減らし,メモリアクセスを減らし,新しいアルゴリズムアーキテクチャの共設計手法を提案する。注目スコアと注目ヘッドの巨大な冗長性を観測し、実行時に注目行列内の重要でないブロックをプルーする整数ベースの行平衡ブロックプルーニングを提案する。また、実行時に重要でないヘッドを検出およびプルーする整数ベースのヘッドプルーニングを提案する。
論文参考訳（メタデータ） (2024-07-17T11:15:16Z)
Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文参考訳（メタデータ） (2024-05-17T00:52:39Z)
SNP: Structured Neuron-level Pruning to Preserve Attention Scores [2.4204190488008046]
マルチヘッド自己注意(MSA)は視覚変換器(ViT)の重要な構成要素である我々は,新しいグラフ対応ニューロンレベルプルーニング法,構造化ニューロンレベルプルーニング(Structured Neuron-level Pruning, SNP)を提案する。提案手法は,エッジデバイスとサーバプロセッサの両方において,Transformerベースのモデルを効果的に圧縮・高速化する。
論文参考訳（メタデータ） (2024-04-18T03:21:28Z)
Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文参考訳（メタデータ） (2024-02-28T19:28:27Z)
Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。 SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文参考訳（メタデータ） (2023-09-19T03:20:02Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。 Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文参考訳（メタデータ） (2022-12-08T18:59:57Z)
Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文参考訳（メタデータ） (2022-09-20T09:28:26Z)
FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文参考訳（メタデータ） (2021-03-08T03:09:37Z)
Taming GANs with Lookahead-Minmax [63.90038365274479]
MNIST, SVHN, CIFAR-10, ImageNetによる実験結果から, Lookahead-minmaxとAdam, Exgradientの併用が明らかとなった。 30倍のパラメータと16倍のミニバッチを使用して、クラスラベルを使わずに12.19のFIDを得ることにより、CIFAR-10上でクラス依存のBigGANのパフォーマンスを上回ります。
論文参考訳（メタデータ） (2020-06-25T17:13:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。