論文の概要: Sparse Attention Acceleration with Synergistic In-Memory Pruning and
On-Chip Recomputation
- arxiv url: http://arxiv.org/abs/2209.00606v1
- Date: Thu, 1 Sep 2022 17:18:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 14:19:25.441601
- Title: Sparse Attention Acceleration with Synergistic In-Memory Pruning and
On-Chip Recomputation
- Title(参考訳): シナジスティックインメモリ・プルーニングとオンチップ・リ計算によるスパースアテンション高速化
- Authors: Amir Yazdanbakhsh, Ashkan Moradifirouzabadi, Zheng Li, Mingu Kang
- Abstract要約: 自己認識機構は、入力シーケンス全体にわたってペアワイズ相関を計測する。
良好な性能にもかかわらず、ペアワイズ相関を計算するのは非常にコストがかかる。
この研究は、注意点を近似的に計算するSPRINTと呼ばれるアクセラレーターを設計することで、これらの制約に対処する。
- 参考スコア(独自算出の注目度): 6.303594714446706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As its core computation, a self-attention mechanism gauges pairwise
correlations across the entire input sequence. Despite favorable performance,
calculating pairwise correlations is prohibitively costly. While recent work
has shown the benefits of runtime pruning of elements with low attention
scores, the quadratic complexity of self-attention mechanisms and their on-chip
memory capacity demands are overlooked. This work addresses these constraints
by architecting an accelerator, called SPRINT, which leverages the inherent
parallelism of ReRAM crossbar arrays to compute attention scores in an
approximate manner. Our design prunes the low attention scores using a
lightweight analog thresholding circuitry within ReRAM, enabling SPRINT to
fetch only a small subset of relevant data to on-chip memory. To mitigate
potential negative repercussions for model accuracy, SPRINT re-computes the
attention scores for the few fetched data in digital. The combined in-memory
pruning and on-chip recompute of the relevant attention scores enables SPRINT
to transform quadratic complexity to a merely linear one. In addition, we
identify and leverage a dynamic spatial locality between the adjacent attention
operations even after pruning, which eliminates costly yet redundant data
fetches. We evaluate our proposed technique on a wide range of state-of-the-art
transformer models. On average, SPRINT yields 7.5x speedup and 19.6x energy
reduction when total 16KB on-chip memory is used, while virtually on par with
iso-accuracy of the baseline models (on average 0.36% degradation).
- Abstract(参考訳): 中心となる計算として、セルフアテンション機構は入力列全体の対関係を計測する。
良好な性能にもかかわらず、ペアの相関を計算するのは非常にコストがかかる。
最近の研究は、低い注意点を持つ要素の実行時のプルーニングの利点を示しているが、自己注意機構の2次複雑さとオンチップメモリ容量の要求は見過ごされている。
この研究はSPRINTと呼ばれる加速器を設計することでこれらの制約に対処し、これはReRAMクロスバーアレイの固有の並列性を利用して、近似的に注意スコアを計算する。
我々の設計では、ReRAM内の軽量アナログしきい値回路を用いて低アテンションスコアを推定し、SPRINTは関連するデータの小さなサブセットのみをオンチップメモリに取得できる。
モデル精度に対する潜在的な負の反感を軽減するため、SPRINTはデジタルで取得された数少ないデータに対する注意スコアを再計算する。
関連する注意スコアのメモリ内プルーニングとオンチップ再計算の組み合わせにより、スプリントは二次複雑性を単に線形なものに変換できる。
さらに,pruning後でも隣接したアテンション操作間の動的空間的局所性を識別し,活用することで,コスト的かつ冗長なデータフェッチを解消する。
提案手法を多種多様な最先端変圧器モデルで評価する。
平均すると、スプリントは16kbのオンチップメモリを使用すると7.5倍のスピードアップと19.6倍のエネルギー削減をもたらすが、ベースラインモデルのiso精度とほぼ同等である(平均0.36%の劣化)。
関連論文リスト
- ELASTIC: Efficient Linear Attention for Sequential Interest Compression [5.689306819772134]
最先端のシーケンシャルレコメンデーションモデルは、トランスフォーマーの注意機構に大きく依存している。
逐次的関心圧縮のための効率的な線形注意法であるELASTICを提案する。
我々は、様々な公開データセットに関する広範な実験を行い、それをいくつかの強力なシーケンシャルなレコメンデータと比較する。
論文 参考訳(メタデータ) (2024-08-18T06:41:46Z) - Towards Model-Size Agnostic, Compute-Free, Memorization-based Inference
of Deep Learning [5.41530201129053]
本稿では,新しい暗記ベース推論(MBI)を提案する。
具体的には、リカレント・アテンション・モデル(RAM)の推論機構に着目します。
低次元のスリープ性を活用することで、我々の推論手順は、スリープ位置、パッチベクトルなどからなるキー値対をテーブルに格納する。
計算は、テーブルを利用してキーと値のペアを読み出し、暗記による計算自由推論を実行することにより、推論中に妨げられる。
論文 参考訳(メタデータ) (2023-07-14T21:01:59Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - Segmented Recurrent Transformer: An Efficient Sequence-to-Sequence Model [10.473819332984005]
分割された(局所的な)注意と再帰的な注意を結合した分節再帰変圧器(SRformer)を提案する。
提案モデルでは,分割変圧器よりも高いROUGE1スコアを6-22%で達成し,他の再帰変圧器よりも優れている。
論文 参考訳(メタデータ) (2023-05-24T03:47:22Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Linear Self-Attention Approximation via Trainable Feedforward Kernel [77.34726150561087]
高速な計算を追求する中で、効率的なトランスフォーマーは印象的な様々なアプローチを実証している。
我々は,トランスフォーマーアーキテクチャの自己保持機構を近似するために,トレーニング可能なカーネルメソッドのアイデアを拡張することを目指している。
論文 参考訳(メタデータ) (2022-11-08T08:14:11Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Rethinking Query-Key Pairwise Interactions in Vision Transformers [5.141895475956681]
本稿では,問合せキーの対の相互作用を排除し,注意重みを求めるために計算効率の高い相性ゲートを用いるキーオンリーの注意を提案する。
我々は、ImageNet分類ベンチマークのパラメータ限定設定において、最先端の精度に達する新しい自己注意モデルファミリーLinGlosを開発した。
論文 参考訳(メタデータ) (2022-07-01T03:36:49Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Channelized Axial Attention for Semantic Segmentation [70.14921019774793]
チャネルアキシャルアテンション(CAA)を提案し、チャネルアテンションと軸アテンションをシームレスに統合し、計算複雑性を低減します。
私たちのCAAは、DANetのような他の注意モデルに比べて計算リソースをはるかに少なくするだけでなく、すべての検証済みデータセット上で最先端のResNet-101ベースのセグメンテーションモデルよりも優れています。
論文 参考訳(メタデータ) (2021-01-19T03:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。