論文の概要: SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost
Computation
- arxiv url: http://arxiv.org/abs/2005.03403v2
- Date: Fri, 8 May 2020 07:35:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 22:40:00.111732
- Title: SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost
Computation
- Title(参考訳): SmartExchange: 低コスト計算のための高コストメモリストレージ/Accessの取引
- Authors: Yang Zhao, Xiaohan Chen, Yue Wang, Chaojian Li, Haoran You, Yonggan
Fu, Yuan Xie, Zhangyang Wang, Yingyan Lin
- Abstract要約: We present SmartExchange, a algorithm- hardware co-design framework for energy- efficient inference of Deep Neural Network (DNNs)。
そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。
さらに、SmartExchange強化重量をフル活用し、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。
- 参考スコア(独自算出の注目度): 97.78417228445883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SmartExchange, an algorithm-hardware co-design framework to trade
higher-cost memory storage/access for lower-cost computation, for
energy-efficient inference of deep neural networks (DNNs). We develop a novel
algorithm to enforce a specially favorable DNN weight structure, where each
layerwise weight matrix can be stored as the product of a small basis matrix
and a large sparse coefficient matrix whose non-zero elements are all
power-of-2. To our best knowledge, this algorithm is the first formulation that
integrates three mainstream model compression ideas: sparsification or pruning,
decomposition, and quantization, into one unified framework. The resulting
sparse and readily-quantized DNN thus enjoys greatly reduced energy consumption
in data movement as well as weight storage. On top of that, we further design a
dedicated accelerator to fully utilize the SmartExchange-enforced weights to
improve both energy efficiency and latency performance. Extensive experiments
show that 1) on the algorithm level, SmartExchange outperforms state-of-the-art
compression techniques, including merely sparsification or pruning,
decomposition, and quantization, in various ablation studies based on nine DNN
models and four datasets; and 2) on the hardware level, the proposed
SmartExchange based accelerator can improve the energy efficiency by up to
6.7$\times$ and the speedup by up to 19.2$\times$ over four state-of-the-art
DNN accelerators, when benchmarked on seven DNN models (including four standard
DNNs, two compact DNN models, and one segmentation model) and three datasets.
- Abstract(参考訳): 提案するSmartExchangeは,DNN(Deep Neural Network)のエネルギー効率の高い推論のために,高コストメモリストレージ/アクセスを低コストで処理するための,アルゴリズム対応の協調設計フレームワークである。
そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。
我々の知る限り、このアルゴリズムはスペーシフィケーションまたはプルーニング、分解、量子化という3つの主流モデル圧縮のアイデアを1つの統一フレームワークに統合する最初の定式化である。
その結果、dnnは、データ移動におけるエネルギー消費を大幅に削減し、重みを蓄えることができる。
さらに、SmartExchange強化重量をフル活用して、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。
大規模な実験は
1)アルゴリズムレベルでは、smartexchangeは、9つのdnnモデルと4つのデータセットに基づく様々なアブレーション研究において、スパース化、プルーニング、分解、量子化といった最先端の圧縮技術を上回る。
ハードウェアレベルでは、SmartExchangeベースのアクセラレーターはエネルギー効率を最大6.7$\times$に向上し、4つのDNNモデル(標準DNN、4つのDNNモデル、2つのコンパクトDNNモデル、1つのセグメンテーションモデルを含む)と3つのデータセットでベンチマークすると、最先端DNNアクセラレーター以上の19.2$\times$に高速化することができる。
関連論文リスト
- Hardware-Aware DNN Compression via Diverse Pruning and Mixed-Precision
Quantization [1.0235078178220354]
本稿では, プルーニングと量子化を併用してハードウェアに配慮したディープニューラルネットワーク(DNN)の自動圧縮フレームワークを提案する。
われわれのフレームワークはデータセットの平均エネルギー消費量を39%減らし、平均精度損失を1.7%減らし、最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2023-12-23T18:50:13Z) - Sub-bit Neural Networks: Learning to Compress and Accelerate Binary
Neural Networks [72.81092567651395]
Sub-bit Neural Networks (SNN) は、BNNの圧縮と高速化に適した新しいタイプのバイナリ量子化設計である。
SNNは、微細な畳み込みカーネル空間におけるバイナリ量子化を利用するカーネル対応最適化フレームワークで訓練されている。
ビジュアル認識ベンチマークの実験とFPGA上でのハードウェア展開は、SNNの大きな可能性を検証する。
論文 参考訳(メタデータ) (2021-10-18T11:30:29Z) - CREW: Computation Reuse and Efficient Weight Storage for
Hardware-accelerated MLPs and RNNs [1.0635248457021496]
本稿では,ReuseとEfficient Weight Storage機構を実装したハードウェアアクセラレータCREWを紹介する。
CREWは乗算数を大幅に削減し、モデルメモリフットプリントとメモリ帯域幅使用量を大幅に削減する。
CREWは平均2.61倍のスピードアップと2.42倍の省エネを提供する。
論文 参考訳(メタデータ) (2021-07-20T11:10:54Z) - ActNN: Reducing Training Memory Footprint via 2-Bit Activation
Compressed Training [68.63354877166756]
ActNNは、バック伝搬のためのランダムに量子化されたアクティベーションを格納するメモリ効率のトレーニングフレームワークである。
ActNNはアクティベーションのメモリフットプリントを12倍に削減し、6.6倍から14倍のバッチサイズでトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-04-29T05:50:54Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z) - Sparse Systolic Tensor Array for Efficient CNN Hardware Acceleration [14.958793135751149]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする
CNN推論のGEMMをさらに加速する一般的な手法であり、特に、構造的スパーシリティは予測可能な負荷分散と非常に低いインデックスオーバーヘッドの利点がある。
ハードウェアの高利用を保ちながら、さまざまな分散レベルのサポートを提供する方法について、構造的疎結合で重要なアーキテクチャ上の課題に対処する。
論文 参考訳(メタデータ) (2020-09-04T20:17:42Z) - Bit Error Robustness for Energy-Efficient DNN Accelerators [93.58572811484022]
本稿では、ロバストな固定点量子化、重み切り、ランダムビット誤り訓練(RandBET)の組み合わせにより、ランダムビット誤りに対するロバスト性を向上することを示す。
これは低電圧動作と低精度量子化の両方から高エネルギーの節約につながる。
論文 参考訳(メタデータ) (2020-06-24T18:23:10Z) - PERMDNN: Efficient Compressed DNN Architecture with Permuted Diagonal
Matrices [35.90103072918056]
ディープニューラルネットワーク(DNN)は、最も重要で人気のある人工知能(AI)技術として登場した。
モデルサイズの成長は、基盤となるコンピューティングプラットフォームにとって重要なエネルギー効率の課題である。
本稿では、ハードウェアフレンドリーな構造化DNNモデルの生成と実行のための新しいアプローチであるPermDNNを提案する。
論文 参考訳(メタデータ) (2020-04-23T02:26:40Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。