論文の概要: Bit-serial Weight Pools: Compression and Arbitrary Precision Execution
of Neural Networks on Resource Constrained Processors
- arxiv url: http://arxiv.org/abs/2201.11651v1
- Date: Tue, 25 Jan 2022 09:20:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-29 06:05:34.677449
- Title: Bit-serial Weight Pools: Compression and Arbitrary Precision Execution
of Neural Networks on Resource Constrained Processors
- Title(参考訳): ビットシリアル重量プール:資源制約プロセッサ上のニューラルネットワークの圧縮と任意精度実行
- Authors: Shurui Li, Puneet Gupta
- Abstract要約: ネットワーク圧縮と任意のサブバイト精度の高速化を含むエンドツーエンドフレームワークであるビットシリアル重みプールを提案する。
このフレームワークは,ネットワーク全体の重みのプールを共有することで,8ビットネットワークと比較して最大8倍の圧縮を実現することができる。
- 参考スコア(独自算出の注目度): 3.099999908475682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Applications of neural networks on edge systems have proliferated in recent
years but the ever-increasing model size makes neural networks not able to
deploy on resource-constrained microcontrollers efficiently. We propose
bit-serial weight pools, an end-to-end framework that includes network
compression and acceleration of arbitrary sub-byte precision. The framework can
achieve up to 8x compression compared to 8-bit networks by sharing a pool of
weights across the entire network. We further propose a bit-serial lookup based
software implementation that allows runtime-bitwidth tradeoff and is able to
achieve more than 2.8x speedup and 7.5x storage compression compared to 8-bit
weight pool networks, with less than 1% accuracy drop.
- Abstract(参考訳): 近年,エッジシステムへのニューラルネットワークの適用が増加しているが,モデルサイズの増加により,ニューラルネットワークは資源制約されたマイクロコントローラに効率よくデプロイできない。
ネットワーク圧縮と任意のサブバイト精度の高速化を含むエンドツーエンドフレームワークであるビットシリアル重みプールを提案する。
このフレームワークは,ネットワーク全体の重みのプールを共有することで,8ビットネットワークと比較して最大8倍の圧縮を実現することができる。
さらに,ビット幅トレードオフを可能とし,8ビット重みプールネットワークと比較して2.8倍の高速化と7.5倍のストレージ圧縮を実現するビットシリアルルックアップベースのソフトウェア実装を提案する。
関連論文リスト
- DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Self-Compressing Neural Networks [0.0]
この研究は、ニューラルネットワークの実行時間、消費電力、帯域幅、メモリフットプリントの主要な要因である、ニューラルネットワークのサイズ削減に重点を置いている。
重要な課題は、特別なハードウェアを必要とせずに、効率的なトレーニングと推論のために簡単に活用できる方法でサイズを減らすことである。
本稿では,(1)重みの除去,(2)残りの重みの表現に必要なビット数の削減という2つの目標を同時に達成する,単純で汎用的な方法を提案する。
論文 参考訳(メタデータ) (2023-01-30T18:22:28Z) - BiFSMNv2: Pushing Binary Neural Networks for Keyword Spotting to
Real-Network Performance [54.214426436283134]
Deep-FSMNのようなディープニューラルネットワークはキーワードスポッティング(KWS)アプリケーションのために広く研究されている。
我々は、KWS、すなわちBiFSMNv2のための強力で効率的なバイナリニューラルネットワークを提示し、それを実ネットワーク精度のパフォーマンスにプッシュする。
小型アーキテクチャと最適化されたハードウェアカーネルの利点により、BiFSMNv2は25.1倍のスピードアップと20.2倍のストレージ節約を実現できる。
論文 参考訳(メタデータ) (2022-11-13T18:31:45Z) - Sub-8-Bit Quantization Aware Training for 8-Bit Neural Network
Accelerator with On-Device Speech Recognition [19.949933989959682]
本稿では,8ビットニューラルネットワークアクセラレータのための新しい8ビット量子化対応トレーニング手法を提案する。
モデルパラメータのサイズを拡大し、単語エラー率を相対的に4-16%削減すると同時に、レイテンシを5%改善しています。
論文 参考訳(メタデータ) (2022-06-30T16:52:07Z) - Fast Conditional Network Compression Using Bayesian HyperNetworks [54.06346724244786]
条件付き圧縮問題を導入し、それに取り組むための高速なフレームワークを提案する。
問題は、トレーニング済みの大規模ニューラルネットワークをターゲットコンテキストに応じて最適な小さなネットワークに素早く圧縮する方法である。
提案手法は, ベースライン方式よりもはるかに小型の圧縮ネットワークを高速に生成できる。
論文 参考訳(メタデータ) (2022-05-13T00:28:35Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Pruning and Quantization for Deep Neural Network Acceleration: A Survey [2.805723049889524]
ディープニューラルネットワークは、コンピュータビジョンの分野で異常な能力を示す多くのアプリケーションに応用されている。
複雑なネットワークアーキテクチャは効率的なリアルタイムデプロイメントに挑戦し、計算資源とエネルギーコストを必要とする。
本稿では,pruning と quantization の2種類のネットワーク圧縮に関する調査を行う。
論文 参考訳(メタデータ) (2021-01-24T08:21:04Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z) - Quantized Neural Network Inference with Precision Batching [4.519884877213097]
精度はニューラルネットワークを個々のビット層に分解し、高速な1ビット演算を用いて蓄積する。
精度は、全精度ベースラインの1%エラーマージン内において、GPU上のエンドツーエンドの8倍の精度が得られる。
さまざまなアプリケーションにおいて、Precisionは、完全な精度ベースラインの1%エラーマージン内において、GPU上のエンド・ツー・エンドの8倍の値を得る。
論文 参考訳(メタデータ) (2020-02-26T19:34:11Z) - Neural Network Compression Framework for fast model inference [59.65531492759006]
我々は、ニューラルネットワーク圧縮フレームワーク(NNCF)と呼ばれる、微調整によるニューラルネットワーク圧縮のための新しいフレームワークを提案する。
様々なネットワーク圧縮手法の最近の進歩を活用し、空間性、量子化、双項化などのいくつかの実装を行っている。
フレームワークは、トレーニングサンプル内に提供され、あるいは既存のトレーニングコードにシームレスに統合可能なスタンドアロンパッケージとして使用することができる。
論文 参考訳(メタデータ) (2020-02-20T11:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。