論文の概要: Sparse Attention Acceleration with Synergistic In-Memory Pruning and
On-Chip Recomputation
- arxiv url: http://arxiv.org/abs/2209.00606v1
- Date: Thu, 1 Sep 2022 17:18:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 14:19:25.441601
- Title: Sparse Attention Acceleration with Synergistic In-Memory Pruning and
On-Chip Recomputation
- Title(参考訳): シナジスティックインメモリ・プルーニングとオンチップ・リ計算によるスパースアテンション高速化
- Authors: Amir Yazdanbakhsh, Ashkan Moradifirouzabadi, Zheng Li, Mingu Kang
- Abstract要約: 自己認識機構は、入力シーケンス全体にわたってペアワイズ相関を計測する。
良好な性能にもかかわらず、ペアワイズ相関を計算するのは非常にコストがかかる。
この研究は、注意点を近似的に計算するSPRINTと呼ばれるアクセラレーターを設計することで、これらの制約に対処する。
- 参考スコア(独自算出の注目度): 6.303594714446706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As its core computation, a self-attention mechanism gauges pairwise
correlations across the entire input sequence. Despite favorable performance,
calculating pairwise correlations is prohibitively costly. While recent work
has shown the benefits of runtime pruning of elements with low attention
scores, the quadratic complexity of self-attention mechanisms and their on-chip
memory capacity demands are overlooked. This work addresses these constraints
by architecting an accelerator, called SPRINT, which leverages the inherent
parallelism of ReRAM crossbar arrays to compute attention scores in an
approximate manner. Our design prunes the low attention scores using a
lightweight analog thresholding circuitry within ReRAM, enabling SPRINT to
fetch only a small subset of relevant data to on-chip memory. To mitigate
potential negative repercussions for model accuracy, SPRINT re-computes the
attention scores for the few fetched data in digital. The combined in-memory
pruning and on-chip recompute of the relevant attention scores enables SPRINT
to transform quadratic complexity to a merely linear one. In addition, we
identify and leverage a dynamic spatial locality between the adjacent attention
operations even after pruning, which eliminates costly yet redundant data
fetches. We evaluate our proposed technique on a wide range of state-of-the-art
transformer models. On average, SPRINT yields 7.5x speedup and 19.6x energy
reduction when total 16KB on-chip memory is used, while virtually on par with
iso-accuracy of the baseline models (on average 0.36% degradation).
- Abstract(参考訳): 中心となる計算として、セルフアテンション機構は入力列全体の対関係を計測する。
良好な性能にもかかわらず、ペアの相関を計算するのは非常にコストがかかる。
最近の研究は、低い注意点を持つ要素の実行時のプルーニングの利点を示しているが、自己注意機構の2次複雑さとオンチップメモリ容量の要求は見過ごされている。
この研究はSPRINTと呼ばれる加速器を設計することでこれらの制約に対処し、これはReRAMクロスバーアレイの固有の並列性を利用して、近似的に注意スコアを計算する。
我々の設計では、ReRAM内の軽量アナログしきい値回路を用いて低アテンションスコアを推定し、SPRINTは関連するデータの小さなサブセットのみをオンチップメモリに取得できる。
モデル精度に対する潜在的な負の反感を軽減するため、SPRINTはデジタルで取得された数少ないデータに対する注意スコアを再計算する。
関連する注意スコアのメモリ内プルーニングとオンチップ再計算の組み合わせにより、スプリントは二次複雑性を単に線形なものに変換できる。
さらに,pruning後でも隣接したアテンション操作間の動的空間的局所性を識別し,活用することで,コスト的かつ冗長なデータフェッチを解消する。
提案手法を多種多様な最先端変圧器モデルで評価する。
平均すると、スプリントは16kbのオンチップメモリを使用すると7.5倍のスピードアップと19.6倍のエネルギー削減をもたらすが、ベースラインモデルのiso精度とほぼ同等である(平均0.36%の劣化)。
関連論文リスト
- UNETR++: Delving into Efficient and Accurate 3D Medical Image
Segmentation [98.90623605283564]
我々は,高画質なセグメンテーションマスクと,パラメータと計算コストの両面から,3次元の医用画像セグメンテーション手法UNETR++を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDCの3つのベンチマークから, 提案したコントリビューションの有効性を, 効率と精度の両面で明らかにした。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Linear Self-Attention Approximation via Trainable Feedforward Kernel [77.34726150561087]
高速な計算を追求する中で、効率的なトランスフォーマーは印象的な様々なアプローチを実証している。
我々は,トランスフォーマーアーキテクチャの自己保持機構を近似するために,トレーニング可能なカーネルメソッドのアイデアを拡張することを目指している。
論文 参考訳(メタデータ) (2022-11-08T08:14:11Z) - Linear Video Transformer with Feature Fixation [34.324346469406926]
ビジョントランスフォーマーは、ソフトマックスのアテンション機構によって引き起こされる二次的な複雑さに悩まされながら、ビデオ分類において印象的なパフォーマンスを達成した。
本稿では、線形注意を計算する前に、クエリとキーの特徴的重要性を再重み付けする機能固定モジュールを提案する。
我々は,3つの人気ビデオ分類ベンチマークを用いて,線形ビデオ変換器の最先端性能を実現する。
論文 参考訳(メタデータ) (2022-10-15T02:20:50Z) - EcoFormer: Energy-Saving Attention with Linear Complexity [40.002608785252164]
Transformerはシーケンシャルデータをモデル化する変換フレームワークである。
本研究では,高次元ソフトマックスアテンションにカスタマイズした新しいバイナライゼーションパラダイムを提案する。
EcoFormerは、標準の注意を払って、一貫して同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-09-19T13:28:32Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Rethinking Query-Key Pairwise Interactions in Vision Transformers [5.141895475956681]
本稿では,問合せキーの対の相互作用を排除し,注意重みを求めるために計算効率の高い相性ゲートを用いるキーオンリーの注意を提案する。
我々は、ImageNet分類ベンチマークのパラメータ限定設定において、最先端の精度に達する新しい自己注意モデルファミリーLinGlosを開発した。
論文 参考訳(メタデータ) (2022-07-01T03:36:49Z) - Efficient Linear Attention for Fast and Accurate Keypoint Matching [0.9699586426043882]
近年、トランスフォーマーはスパースマッチングにおける最先端の性能を提供し、高性能な3Dビジョンアプリケーションの実現に不可欠である。
しかし、これらの変換器は、注意機構の2次計算の複雑さのために効率を欠いている。
本稿では,グローバル情報とローカル情報の両方をスパースキーポイントから集約することで,高精度なアグリゲーションを実現する。
論文 参考訳(メタデータ) (2022-04-16T06:17:36Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Channelized Axial Attention for Semantic Segmentation [70.14921019774793]
チャネルアキシャルアテンション(CAA)を提案し、チャネルアテンションと軸アテンションをシームレスに統合し、計算複雑性を低減します。
私たちのCAAは、DANetのような他の注意モデルに比べて計算リソースをはるかに少なくするだけでなく、すべての検証済みデータセット上で最先端のResNet-101ベースのセグメンテーションモデルよりも優れています。
論文 参考訳(メタデータ) (2021-01-19T03:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。