論文の概要: Systolic Tensor Array: An Efficient Structured-Sparse GEMM Accelerator
for Mobile CNN Inference
- arxiv url: http://arxiv.org/abs/2005.08098v1
- Date: Sat, 16 May 2020 20:47:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 14:09:34.462713
- Title: Systolic Tensor Array: An Efficient Structured-Sparse GEMM Accelerator
for Mobile CNN Inference
- Title(参考訳): シストリックテンソルアレイ:モバイルCNN推論のための効率的な構造スパースGEMM加速器
- Authors: Zhi-Gang Liu, Paul N. Whatmough, Matthew Mattina
- Abstract要約: モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、効率的なハードウェアアクセラレーションを必要とする。
systolic array (SA)は、処理要素(PE)のパイプライン化された2D配列である
CNN推論を特に最適化するために,従来のSAアーキテクチャの2つの重要な改善点について述べる。
- 参考スコア(独自算出の注目度): 16.812184391068786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional neural network (CNN) inference on mobile devices demands
efficient hardware acceleration of low-precision (INT8) general matrix
multiplication (GEMM). The systolic array (SA) is a pipelined 2D array of
processing elements (PEs), with very efficient local data movement, well suited
to accelerating GEMM, and widely deployed in industry. In this work, we
describe two significant improvements to the traditional SA architecture, to
specifically optimize for CNN inference. Firstly, we generalize the traditional
scalar PE, into a Tensor-PE, which gives rise to a family of new Systolic
Tensor Array (STA) microarchitectures. The STA family increases intra-PE
operand reuse and datapath efficiency, resulting in circuit area and power
dissipation reduction of as much as 2.08x and 1.36x respectively, compared to
the conventional SA at iso-throughput with INT8 operands. Secondly, we extend
this design to support a novel block-sparse data format called density-bound
block (DBB). This variant (STA-DBB) achieves a 3.14x and 1.97x improvement over
the SA baseline at iso-throughput in area and power respectively, when
processing specially-trained DBB-sparse models, while remaining fully backwards
compatible with dense models.
- Abstract(参考訳): モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする。
サイストリックアレイ(英: systolic array、SA)は、パイプライン化された2次元の処理要素(PE)配列であり、非常に効率的な局所データ移動を持ち、GEMMの高速化に適しており、産業に広く配備されている。
本稿では,従来のsaアーキテクチャにおける2つの重要な改善点について述べる。
まず、従来のスカラーPEをTensor-PEに一般化し、新しいSystolic Tensor Array(STA)マイクロアーキテクチャのファミリーを生み出す。
STAファミリーはPE内のオペランドの再利用とデータパス効率を向上し、INT8オペランドのアイソスループットのSAと比較して回路面積と消費電力を最大2.08xと1.36xに削減した。
次に、この設計を拡張して、密度バウンドブロック(DBB)と呼ばれる新しいブロックスパースデータフォーマットをサポートする。
この変種(STA-DBB)は、高密度モデルとの完全な後方互換性を維持しながら、特別に訓練されたDBBスパースモデルを処理する際に、SAベースラインを面積と出力で3.14倍改善する。
関連論文リスト
- Point Transformer V3: Simpler, Faster, Stronger [92.14455237369164]
本稿では,ポイントクラウド処理における精度と効率のトレードオフを克服することに焦点を当てる。
本稿では,特定のメカニズムの精度よりもシンプルさと効率を優先するポイントトランスフォーマーV3(PTv3)を提案する。
PTv3は、屋内と屋外の両方のシナリオにまたがる20以上の下流タスクで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-15T18:59:59Z) - SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - BiFSMNv2: Pushing Binary Neural Networks for Keyword Spotting to
Real-Network Performance [54.214426436283134]
Deep-FSMNのようなディープニューラルネットワークはキーワードスポッティング(KWS)アプリケーションのために広く研究されている。
我々は、KWS、すなわちBiFSMNv2のための強力で効率的なバイナリニューラルネットワークを提示し、それを実ネットワーク精度のパフォーマンスにプッシュする。
小型アーキテクチャと最適化されたハードウェアカーネルの利点により、BiFSMNv2は25.1倍のスピードアップと20.2倍のストレージ節約を実現できる。
論文 参考訳(メタデータ) (2022-11-13T18:31:45Z) - BiFSMN: Binary Neural Network for Keyword Spotting [47.46397208920726]
BiFSMNは、KWSのための正確かつ極効率のバイナリニューラルネットワークである。
実世界のエッジハードウェアにおいて,BiFSMNは22.3倍の高速化と15.5倍のストレージ節約を実現可能であることを示す。
論文 参考訳(メタデータ) (2022-02-14T05:16:53Z) - A Heterogeneous In-Memory Computing Cluster For Flexible End-to-End
Inference of Real-World Deep Neural Networks [12.361842554233558]
最新のTinyMLタスクを小さなバッテリに制約されたIoTデバイスにデプロイするには、高い計算エネルギー効率が必要である。
非揮発性メモリ(NVM)を使用したアナログメモリコンピューティング(IMC)は、ディープニューラルネットワーク(DNN)推論の大幅な効率向上を実現する。
8つのRISC-Vコア、インメモリ・コンピューティング・アクセラレータ(IMA)、デジタル・アクセラレータを統合した異種密結合アーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-01-04T11:12:01Z) - S2TA: Exploiting Structured Sparsity for Energy-Efficient Mobile CNN
Acceleration [21.110711058376534]
スパシティの爆発は、モバイルデバイス上での量子畳み込みニューラルネットワーク(CNN)推論を加速させる重要なテクニックである。
本稿では,重みとアクティベーションの両面において,構造的疎度,具体的には密度境界ブロック(DBB)の疎度を利用することを提案する。
S2TAは,関節重量とDBB空間の活性化を利用するサイストリックアレイベースのCNNアクセラレータである。
論文 参考訳(メタデータ) (2021-07-16T15:57:06Z) - Easy and Efficient Transformer : Scalable Inference Solution For large
NLP mode [14.321889138798072]
本稿では,超大規模事前学習モデル最適化手法を提案する。
推論エンジンとして Easy and Efficient Transformer (EET) が提案されている。
EETは、コンテキストの長さに応じて1.5-15倍のスピードアップを達成します。
論文 参考訳(メタデータ) (2021-04-26T11:00:56Z) - Sparse Systolic Tensor Array for Efficient CNN Hardware Acceleration [14.958793135751149]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする
CNN推論のGEMMをさらに加速する一般的な手法であり、特に、構造的スパーシリティは予測可能な負荷分散と非常に低いインデックスオーバーヘッドの利点がある。
ハードウェアの高利用を保ちながら、さまざまな分散レベルのサポートを提供する方法について、構造的疎結合で重要なアーキテクチャ上の課題に対処する。
論文 参考訳(メタデータ) (2020-09-04T20:17:42Z) - Binary DAD-Net: Binarized Driveable Area Detection Network for
Autonomous Driving [94.40107679615618]
本稿では,二項化駆動型領域検出ネットワーク(バイナリDAD-Net)を提案する。
エンコーダ、ボトルネック、デコーダ部分の2重みとアクティベーションのみを使用する。
パブリックデータセット上で、最先端のセマンティックセグメンテーションネットワークより優れています。
論文 参考訳(メタデータ) (2020-06-15T07:09:01Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。