論文の概要: ATTACC the Quadratic Bottleneck of Attention Layers
- arxiv url: http://arxiv.org/abs/2107.06419v1
- Date: Tue, 13 Jul 2021 22:23:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 14:09:28.782534
- Title: ATTACC the Quadratic Bottleneck of Attention Layers
- Title(参考訳): attaccによるアテンション層の二次ボトルネック
- Authors: Sheng-Chun Kao, Suvinay Subramanian, Gaurav Agrawal, Tushar Krishna
- Abstract要約: 本稿では、ディープニューラルネットワーク(DNN)アクセラレーターのための新しいアテンション調整データフローであるFLATを紹介する。
高帯域幅で低容量のオンチップバッファを効率的に利用することで、効果的なメモリ帯域幅を増大させる。
評価では,ATTACCは最先端エッジやクラウドアクセラレータと比較して1.94倍,1.76倍,49%,42%のエネルギー削減を達成した。
- 参考スコア(独自算出の注目度): 3.2741800634280245
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Attention mechanisms form the backbone of state-of-the-art machine learning
models for a variety of tasks. Deploying them on deep neural network (DNN)
accelerators, however, is prohibitively challenging especially under long
sequences. Operators in attention layers exhibit limited reuse and quadratic
growth in memory footprint, leading to severe memory-boundedness. This paper
introduces a new attention-tailored dataflow, termed FLAT, which leverages
operator fusion, loop-nest optimizations, and interleaved execution. It
increases the effective memory bandwidth by efficiently utilizing the
high-bandwidth, low-capacity on-chip buffer and thus achieves better run time
and compute resource utilization. We term FLAT-compatible accelerators ATTACC.
In our evaluation, ATTACC achieves 1.94x and 1.76x speedup and 49% and 42% of
energy reduction comparing to state-of-the-art edge and cloud accelerators.
- Abstract(参考訳): 注意機構は、さまざまなタスクのための最先端の機械学習モデルのバックボーンを形成する。
しかし、ディープニューラルネットワーク(DNN)アクセラレーターにそれらをデプロイすることは、特に長いシーケンスでは非常に難しい。
注意層内のオペレータは、メモリフットプリントの限られた再利用と二次的な成長を示し、メモリバウンドネスを著しく高める。
本稿では,演算子融合,ループネスト最適化,インターリーブ実行を利用した新しいデータフローであるflatを提案する。
高帯域幅で低容量のオンチップバッファを効率よく利用することにより、効率的なメモリ帯域幅を増大させ、実行時間と計算資源の利用を向上する。
FLAT互換アクセラレータATTACCと呼ぶ。
評価では,ATTACCは最先端エッジやクラウドアクセラレータと比較して1.94倍,1.76倍,49%,42%のエネルギー削減を達成した。
関連論文リスト
- Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - TSB: Tiny Shared Block for Efficient DNN Deployment on NVCIM Accelerators [11.496631244103773]
Tiny Shared Block (TSB)"は、小さな共有1x1畳み込みブロックをDeep Neural Networkアーキテクチャに統合する。
TSBは、20倍以上の推論精度ギャップの改善、5倍以上のトレーニングスピードアップ、デバイス間マッピングコストの削減を実現している。
論文 参考訳(メタデータ) (2024-05-08T20:53:38Z) - EPIM: Efficient Processing-In-Memory Accelerators based on Epitome [78.79382890789607]
畳み込みのような機能を提供する軽量神経オペレータであるEpitomeを紹介する。
ソフトウェア側では,PIMアクセラレータ上でのエピトームのレイテンシとエネルギを評価する。
ハードウェア効率を向上させるため,PIM対応層設計手法を提案する。
論文 参考訳(メタデータ) (2023-11-12T17:56:39Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Self-Attentive Pooling for Efficient Deep Learning [6.822466048176652]
そこで本研究では,標準プーリング層に対するドロップイン代替として使用可能な,非局所的な自己係留型プーリング手法を提案する。
我々は、ImageNet上のMobileNet-V2の様々な変種に対する既存のプール技術のテスト精度を平均1.2%上回る。
提案手法は,イソメモリフットプリントを用いたSOTA技術と比較して1.43%高い精度を実現している。
論文 参考訳(メタデータ) (2022-09-16T00:35:14Z) - Faster Attention Is What You Need: A Fast Self-Attention Neural Network
Backbone Architecture for the Edge via Double-Condensing Attention Condensers [71.40595908386477]
本稿では,2重対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向
結果のバックボーン(AttendNeXtと呼ぶ)は、組み込みARMプロセッサ上で大幅に高い推論スループットを実現する。
これらの有望な結果は、さまざまな効率的なアーキテクチャ設計と自己アテンション機構の探索が、TinyMLアプリケーションのための興味深い新しいビルディングブロックにつながることを実証している。
論文 参考訳(メタデータ) (2022-08-15T02:47:33Z) - Fast and Memory-Efficient Network Towards Efficient Image
Super-Resolution [44.909233016062906]
我々は、資源制約のあるデバイスのためのメモリ効率の高い画像超解像ネットワーク(FMEN)を構築した。
FMENは、最先端のEISRモデルであるE-RFDNと比較して33%高速で、メモリ消費を74%削減する。
FMEN-S は NTIRE 2022 の高効率超解像における最小のメモリ消費と2番目に短いランタイムを実現する。
論文 参考訳(メタデータ) (2022-04-18T16:49:20Z) - Towards Memory-Efficient Neural Networks via Multi-Level in situ
Generation [10.563649948220371]
ディープニューラルネットワーク(DNN)は、様々なタスクにおいて優れたパフォーマンスを示している。
それらが急速に進化するにつれて、そのエスカレーション計算とメモリ要求により、リソースに制約のあるエッジデバイスへのデプロイが困難になる。
超高速なオンチップ計算で高価なメモリトランザクションを交換するための汎用的で統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-25T18:50:24Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Improving Memory Utilization in Convolutional Neural Network
Accelerators [16.340620299847384]
本稿では,アクティベーション層を重複させ,メモリをより効率的に利用するためのマッピング手法を提案する。
様々な実世界のオブジェクト検出器ネットワークによる実験により、提案されたマッピング技術により、メモリのアクティベーションを最大32.9%削減できることが示された。
より高解像度のノイズ除去ネットワークでは、活性化メモリの48.8%の節約を実現している。
論文 参考訳(メタデータ) (2020-07-20T09:34:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。