論文の概要: Dual-side Sparse Tensor Core
- arxiv url: http://arxiv.org/abs/2105.09564v1
- Date: Thu, 20 May 2021 07:36:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 13:24:38.691504
- Title: Dual-side Sparse Tensor Core
- Title(参考訳): デュアルサイドスパーステンソルコア
- Authors: Yang Wang, Chen Zhang, Zhiqiang Xie, Cong Guo, Yunxin Liu, Jingwen
Leng
- Abstract要約: 既存のGPUは、重みからしか利用できないが、アクティベーションではない。
両面間隔(重みとアクティベーション間隔)を効率的に活用する新しいアーキテクチャを提案する。
我々の設計では、両面の間隔を完全に解き、最小限のハードウェアオーバーヘッドで最大1桁の性能を向上させることができる。
- 参考スコア(独自算出の注目度): 18.204976918925635
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Leveraging sparsity in deep neural network (DNN) models is promising for
accelerating model inference. Yet existing GPUs can only leverage the sparsity
from weights but not activations, which are dynamic, unpredictable, and hence
challenging to exploit. In this work, we propose a novel architecture to
efficiently harness the dual-side sparsity (i.e., weight and activation
sparsity). We take a systematic approach to understand the (dis)advantages of
previous sparsity-related architectures and propose a novel, unexplored
paradigm that combines outer-product computation primitive and bitmap-based
encoding format. We demonstrate the feasibility of our design with minimal
changes to the existing production-scale inner-product-based Tensor Core. We
propose a set of novel ISA extensions and co-design the matrix-matrix
multiplication and convolution algorithms, which are the two dominant
computation patterns in today's DNN models, to exploit our new dual-side sparse
Tensor Core. Our evaluation shows that our design can fully unleash the
dual-side DNN sparsity and improve the performance by up to one order of
magnitude with \hl{small} hardware overhead.
- Abstract(参考訳): deep neural network (dnn)モデルにおけるスパーシティの活用は、モデル推論の加速に有望である。
しかし、既存のgpuは、重みからのスパーシティのみを活用できるが、アクティベーションは利用できない。
本研究では,両面の空間(重みとアクティベーションの空間)を効率的に利用するための新しいアーキテクチャを提案する。
本稿では,従来の疎性関連アーキテクチャの(非)アドバンテージを理解するための体系的なアプローチと,外積計算プリミティブとビットマップベースの符号化フォーマットを組み合わせた,新しい未探索パラダイムを提案する。
既存の生産規模内製品ベースのTensor Coreに最小限の変更を加えることで、設計の実現可能性を示す。
本稿では,DNNモデルにおける2つの主要な計算パターンである行列行列行列乗法と畳み込みアルゴリズムを共同設計し,新しい両面スパーステンソルコアを利用する新しいISA拡張セットを提案する。
評価の結果,ハードウェアのオーバーヘッドにより,両面のDNN間隔を完全に解き,最大1桁の性能を向上できることがわかった。
関連論文リスト
- Recurrent Bilinear Optimization for Binary Neural Networks [58.972212365275595]
BNNは、実数値重みとスケールファクターの内在的双線型関係を無視している。
私たちの仕事は、双線形の観点からBNNを最適化する最初の試みです。
我々は、様々なモデルやデータセット上で最先端のBNNに対して印象的な性能を示す頑健なRBONNを得る。
論文 参考訳(メタデータ) (2022-09-04T06:45:33Z) - DepthShrinker: A New Compression Paradigm Towards Boosting Real-Hardware
Efficiency of Compact Neural Networks [29.46621102184345]
ハードウェアフレンドリーなコンパクトネットワークを開発するために,DepthShrinkerというフレームワークを提案する。
我々のフレームワークは、最先端のDNNや圧縮技術より優れたハードウェアフレンドリーなコンパクトネットワークを提供する。
論文 参考訳(メタデータ) (2022-06-02T02:32:47Z) - Accelerating Sparse Deep Neural Networks [20.6942347219753]
本研究では,密度行列ユニットの計算スループットを2倍にする2:4 (25%) のスパースパターンを利用したスパースコアの設計と挙動を示す。
また,2:4のスパーシティパターン要件を満たすネットワークをトレーニングし,精度を維持するための簡単なワークフローについても述べる。
論文 参考訳(メタデータ) (2021-04-16T21:27:32Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - FTBNN: Rethinking Non-linearity for 1-bit CNNs and Going Beyond [23.5996182207431]
本稿では,二項化畳み込み過程が,その誤差を最小限に抑えるために線形性を増大させ,BNNの識別能力を損なうことを示す。
我々は、その矛盾を修正するために、適切な非線形モジュールを再検討し、調整することで、最先端のパフォーマンスを実現する強力なベースラインに繋がる。
論文 参考訳(メタデータ) (2020-10-19T08:11:48Z) - Binarizing MobileNet via Evolution-based Searching [66.94247681870125]
そこで本稿では,MobileNet をバイナライズする際の構築と訓練を容易にするための進化的探索手法を提案する。
ワンショットアーキテクチャ検索フレームワークに着想を得て、グループ畳み込みのアイデアを操り、効率的な1ビット畳み込みニューラルネットワーク(CNN)を設計する。
我々の目標は、グループ畳み込みの最良の候補を探索することで、小さなが効率的なバイナリニューラルアーキテクチャを考案することである。
論文 参考訳(メタデータ) (2020-05-13T13:25:51Z) - PERMDNN: Efficient Compressed DNN Architecture with Permuted Diagonal
Matrices [35.90103072918056]
ディープニューラルネットワーク(DNN)は、最も重要で人気のある人工知能(AI)技術として登場した。
モデルサイズの成長は、基盤となるコンピューティングプラットフォームにとって重要なエネルギー効率の課題である。
本稿では、ハードウェアフレンドリーな構造化DNNモデルの生成と実行のための新しいアプローチであるPermDNNを提案する。
論文 参考訳(メタデータ) (2020-04-23T02:26:40Z) - Einsum Networks: Fast and Scalable Learning of Tractable Probabilistic
Circuits [99.59941892183454]
我々は,PC用の新しい実装設計であるEinsum Networks (EiNets)を提案する。
中心となるのは、E EiNets は単一のモノリシックな einsum-operation に多数の算術演算を組み合わせている。
本稿では,PCにおける予測最大化(EM)の実装を,自動微分を利用した簡易化が可能であることを示す。
論文 参考訳(メタデータ) (2020-04-13T23:09:15Z) - An Image Enhancing Pattern-based Sparsity for Real-time Inference on
Mobile Devices [58.62801151916888]
パターンと接続性を組み合わせた新しい空間空間,すなわちパターンベースの空間空間を導入し,高度に正確かつハードウェアに親しみやすいものにした。
新たなパターンベースの空間性に対する我々のアプローチは,モバイルプラットフォーム上での高効率DNN実行のためのコンパイラ最適化に自然に適合する。
論文 参考訳(メタデータ) (2020-01-20T16:17:36Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。