論文の概要: Ax-BxP: Approximate Blocked Computation for Precision-Reconfigurable
Deep Neural Network Acceleration
- arxiv url: http://arxiv.org/abs/2011.13000v3
- Date: Thu, 28 Oct 2021 21:14:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 02:39:07.386872
- Title: Ax-BxP: Approximate Blocked Computation for Precision-Reconfigurable
Deep Neural Network Acceleration
- Title(参考訳): Ax-BxP:精度再構成可能なディープニューラルネットワーク高速化のための近似ブロック計算
- Authors: Reena Elangovan, Shubham Jain, Anand Raghunathan
- Abstract要約: ディープニューラルネットワーク(DNN)の計算とストレージ要件を最適化する一般的な手法として、精度スケーリングが登場した。
超低精度(sub-8ビット)DNNの作成への取り組みは、与えられたネットワークレベルの精度を達成するために必要な最小精度がネットワーク間で大きく異なることを示唆している。
ビットシリアルハードウェアのような以前の提案は高いオーバーヘッドを発生させ、より精度の低い利点を著しく減らした。
- 参考スコア(独自算出の注目度): 3.7371886886933487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Precision scaling has emerged as a popular technique to optimize the compute
and storage requirements of Deep Neural Networks (DNNs). Efforts toward
creating ultra-low-precision (sub-8-bit) DNNs suggest that the minimum
precision required to achieve a given network-level accuracy varies
considerably across networks, and even across layers within a network,
requiring support for variable precision in DNN hardware. Previous proposals
such as bit-serial hardware incur high overheads, significantly diminishing the
benefits of lower precision. To efficiently support precision
re-configurability in DNN accelerators, we introduce an approximate computing
method wherein DNN computations are performed block-wise (a block is a group of
bits) and re-configurability is supported at the granularity of blocks. Results
of block-wise computations are composed in an approximate manner to enable
efficient re-configurability. We design a DNN accelerator that embodies
approximate blocked computation and propose a method to determine a suitable
approximation configuration for a given DNN. By varying the approximation
configurations across DNNs, we achieve 1.17x-1.73x and 1.02x-2.04x improvement
in system energy and performance respectively, over an 8-bit fixed-point (FxP8)
baseline, with negligible loss in classification accuracy. Further, by varying
the approximation configurations across layers and data-structures within DNNs,
we achieve 1.25x-2.42x and 1.07x-2.95x improvement in system energy and
performance respectively, with negligible accuracy loss.
- Abstract(参考訳): Deep Neural Networks(DNN)の計算とストレージ要件を最適化するための一般的なテクニックとして、精度スケーリングが登場した。
超低精度(sub-8ビット)DNNの作成への取り組みは、与えられたネットワークレベルの精度を達成するために必要な最小精度がネットワーク全体、さらにはネットワーク内の層にわたって大きく異なり、DNNハードウェアで可変精度をサポートする必要があることを示唆している。
ビットシリアルハードウェアのような以前の提案は高いオーバーヘッドを発生させ、より精度の低い利点を著しく減らした。
DNN加速器の高精度再構成性を効率的に支援するために、ブロック単位でDNN計算を行い(ブロックはビットのグループ)、ブロックの粒度で再構成可能をサポートする近似計算手法を提案する。
ブロックワイズ計算の結果は近似的に構成され、効率的な再設定が可能となる。
近似ブロック計算を具現化したDNNアクセラレータを設計し、与えられたDNNに適した近似構成を決定する方法を提案する。
DNN間の近似構成を変化させることで、システムエネルギーと性能のそれぞれ1.17x-1.73xと1.02x-2.04xを8ビット固定点(FxP8)ベースラインで改善し、分類精度は無視できる。
さらに,DNN内の層間およびデータ構造間の近似構成を変化させることで,システムエネルギーと性能のそれぞれ1.25x-2.42xと1.07x-2.95xの改善を実現し,精度損失を無視できる。
関連論文リスト
- Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。
我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文 参考訳(メタデータ) (2024-10-07T05:04:13Z) - SySMOL: Co-designing Algorithms and Hardware for Neural Networks with Heterogeneous Precisions [20.241671088121144]
最近の量子化技術は、非常に微細な粒度で不均一な精度を実現している。
これらのネットワークは、個々の変数の精度設定をデコードし、変数を調整し、きめ細かい混合精度計算機能を提供するために、追加のハードウェアを必要とする。
ネットワークを細粒度の不均一な精度で効率的に実行するためのエンド・ツー・エンド協調設計手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T17:20:09Z) - Binary Neural Networks as a general-propose compute paradigm for
on-device computer vision [0.0]
本稿では,1)ハードウェアフレンドリ性のための最小限の推論スキーム,2)高精度な過剰パラメータ化トレーニングスキーム,3)異なる視覚タスクに適応するための簡単な手順からなるBNNフレームワークを提案する。
このフレームワークは、分類、検出、セグメンテーション、超解像、マッチングのための速度-vs精度トレードオフにおいて8ビットの量子化を上回ります。
我々のBNNは、2.8-7$times$8ビットより少ない実行サイクル、2.1-2.7$times$代替BNNの設計より少ないサイクルを約束している。
論文 参考訳(メタデータ) (2022-02-08T08:38:22Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z) - Sub-bit Neural Networks: Learning to Compress and Accelerate Binary
Neural Networks [72.81092567651395]
Sub-bit Neural Networks (SNN) は、BNNの圧縮と高速化に適した新しいタイプのバイナリ量子化設計である。
SNNは、微細な畳み込みカーネル空間におけるバイナリ量子化を利用するカーネル対応最適化フレームワークで訓練されている。
ビジュアル認識ベンチマークの実験とFPGA上でのハードウェア展開は、SNNの大きな可能性を検証する。
論文 参考訳(メタデータ) (2021-10-18T11:30:29Z) - APNN-TC: Accelerating Arbitrary Precision Neural Networks on Ampere GPU
Tensor Cores [19.516279899089735]
我々は、Ampere Coresにおける量子化の利点をフル活用するために、最初のArbitrary Precision Neural Network framework (APNN-TC)を導入する。
APNN-TCは、int1計算プリミティブとXOR/AND演算による任意のビット幅計算をサポートする。
これは、LAS CUTSカーネルとResNetやVGGといった様々なNNモデルよりも大幅に高速化できる。
論文 参考訳(メタデータ) (2021-06-23T05:39:34Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - HAO: Hardware-aware neural Architecture Optimization for Efficient
Inference [25.265181492143107]
ニューラルネットワーク探索アルゴリズムの設計空間を縮小するための整数プログラミングアルゴリズムを開発する。
私たちのアルゴリズムは、フレームレート50でImageNetの72.5%のトップ-1精度を達成し、MnasNetよりも60%高速で、比較精度でFBNetよりも135%高速です。
論文 参考訳(メタデータ) (2021-04-26T17:59:29Z) - FATNN: Fast and Accurate Ternary Neural Networks [89.07796377047619]
Ternary Neural Networks (TNN) は、完全な精度のニューラルネットワークよりもはるかに高速で、電力効率が高いため、多くの注目を集めている。
そこで本研究では、3次内積の計算複雑性を2。
性能ギャップを軽減するために,実装に依存した3次量子化アルゴリズムを精巧に設計する。
論文 参考訳(メタデータ) (2020-08-12T04:26:18Z) - Distillation Guided Residual Learning for Binary Convolutional Neural
Networks [83.6169936912264]
Binary CNN(BCNN)とFloating Point CNN(FCNN)のパフォーマンスギャップを埋めることは難しい。
我々は,この性能差が,BCNNとFCNNの中間特徴写像の間にかなりの残差をもたらすことを観察した。
性能ギャップを最小限に抑えるため,BCNN は FCNN と同様の中間特徴写像を生成する。
このトレーニング戦略、すなわち、FCNNから派生したブロックワイド蒸留損失で各バイナリ畳み込みブロックを最適化することで、BCNNをより効果的に最適化する。
論文 参考訳(メタデータ) (2020-07-10T07:55:39Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。