論文の概要: Quality Scalable Quantization Methodology for Deep Learning on Edge
- arxiv url: http://arxiv.org/abs/2407.11260v1
- Date: Mon, 15 Jul 2024 22:00:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 19:11:45.541475
- Title: Quality Scalable Quantization Methodology for Deep Learning on Edge
- Title(参考訳): エッジ深層学習のための高品質スケーラブル量子化手法
- Authors: Salman Abdul Khaliq, Rehan Hafiz,
- Abstract要約: ディープラーニングアーキテクチャは重い計算を使い、計算エネルギーの大部分は畳み込みニューラルネットワークの畳み込み演算によって取り込まれる。
提案する研究は、ユビキタスコンピューティングデバイス上でエッジコンピューティングで機械学習技術を使用する場合、CNNのエネルギー消費とサイズを削減することである。
LeNetとConvNetsで実施された実験では、ゼロの6%まで増加し、メモリ節約量は82.4919%まで増加し、最先端の精度を維持した。
- 参考スコア(独自算出の注目度): 0.20718016474717196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Learning Architectures employ heavy computations and bulk of the computational energy is taken up by the convolution operations in the Convolutional Neural Networks. The objective of our proposed work is to reduce the energy consumption and size of CNN for using machine learning techniques in edge computing on ubiquitous computing devices. We propose Systematic Quality Scalable Design Methodology consisting of Quality Scalable Quantization on a higher abstraction level and Quality Scalable Multipliers at lower abstraction level. The first component consists of parameter compression where we approximate representation of values in filters of deep learning models by encoding in 3 bits. A shift and scale based on-chip decoding hardware is proposed which can decode these 3-bit representations to recover approximate filter values. The size of the DNN model is reduced this way and can be sent over a communication channel to be decoded on the edge computing devices. This way power is reduced by limiting data bits by approximation. In the second component we propose a quality scalable multiplier which reduces the number of partial products by converting numbers in canonic sign digit representations and further approximating the number by reducing least significant bits. These quantized CNNs provide almost same ac-curacy as network with original weights with little or no fine-tuning. The hardware for the adaptive multipliers utilize gate clocking for reducing energy consumption during multiplications. The proposed methodology greatly reduces the memory and power requirements of DNN models making it a feasible approach to deploy Deep Learning on edge computing. The experiments done on LeNet and ConvNets show an increase upto 6% of zeros and memory savings upto 82.4919% while keeping the accuracy near the state of the art.
- Abstract(参考訳): ディープラーニングアーキテクチャは重い計算を使い、計算エネルギーの大部分は畳み込みニューラルネットワークの畳み込み演算によって取り込まれる。
本研究の目的は,ユビキタスコンピューティングデバイス上でのエッジコンピューティングにおける機械学習技術を用いたCNNのエネルギー消費量とサイズを削減することである。
本稿では,より抽象度の高い品質のスケーラブルな量子化と,より抽象度の高い品質のスケーラブルな乗算器からなるシステム品質のスケーラブルな設計手法を提案する。
最初のコンポーネントはパラメータ圧縮で構成され、3ビットの符号化によりディープラーニングモデルのフィルタにおける値の表現を近似する。
これらの3ビット表現をデコードして近似フィルタ値の復元が可能なオンチップデコードハードウェアに基づくシフトとスケールを提案する。
この方法でDNNモデルのサイズを縮小し、通信チャネル経由で送信してエッジコンピューティングデバイスで復号化することができる。
この方法では、近似によってデータビットを制限することで電力を削減できる。
第2のコンポーネントでは、正準符号桁表現の数値を変換し、最小有意ビットを減らしてさらに近似することで、部分積の数を削減できる、スケーラブルな乗算器を提案する。
これらの量子化されたCNNは、元の重みがほとんどあるいは全く微調整されていないネットワークとほとんど同じAC精度を提供する。
適応乗算器のハードウェアは、ゲートクロックを利用して乗算時のエネルギー消費を低減する。
提案手法は,DNNモデルのメモリと電力の要求を大幅に低減し,エッジコンピューティングにディープラーニングをデプロイするための実現可能なアプローチである。
LeNetとConvNetsで実施された実験では、ゼロの6%まで増加し、メモリ節約量は82.4919%まで増加し、最先端の精度を維持した。
関連論文リスト
- EncodingNet: A Novel Encoding-based MAC Design for Efficient Neural
Network Acceleration [8.254523741863135]
符号化に基づく新しいディジタル乗算累積(MAC)設計を提案する。
この新しい設計では、乗算器は単純な論理ゲートで置き換えられ、結果をワイドビット表現に投影する。
実験の結果、回路面積を最大79.63%削減し、DNNの実行電力を最大70.18%削減することが確認された。
論文 参考訳(メタデータ) (2024-02-25T09:35:30Z) - MST-compression: Compressing and Accelerating Binary Neural Networks
with Minimum Spanning Tree [21.15961593182111]
エッジコンピューティングデバイスにおける計算コストとメモリストレージを削減するために、バイナリニューラルネットワーク(BNN)が広く採用されている。
しかしながら、ニューラルネットワークが精度を向上し、実用的な要件を満たすためにより広く、より深くなるにつれて、計算の負担はバイナリバージョンにおいても大きな課題である。
本稿では,BNNの圧縮と高速化を学習する,最小スパンニングツリー(MST)圧縮法を提案する。
論文 参考訳(メタデータ) (2023-08-26T02:42:12Z) - Deep Convolutional Tables: Deep Learning without Convolutions [12.069186324544347]
本稿では,ドット生成ニューロンを使用しず,代わりに投票表の階層に依存するディープネットワークの新たな定式化を提案する。
ディープCTネットワークは、類似アーキテクチャのCNNに匹敵する精度を持つことが実験的に示されている。
論文 参考訳(メタデータ) (2023-04-23T17:49:21Z) - Low-bit Shift Network for End-to-End Spoken Language Understanding [7.851607739211987]
本稿では,連続パラメータを低ビットの2値に量子化する2乗量子化法を提案する。
これにより、高価な乗算演算を除去し、低ビット重みを使用すれば計算の複雑さを低減できる。
論文 参考訳(メタデータ) (2022-07-15T14:34:22Z) - Edge Inference with Fully Differentiable Quantized Mixed Precision
Neural Networks [1.131071436917293]
パラメータと演算をビット精度の低いものに量子化することで、ニューラルネットワークの推論にかなりのメモリとエネルギーを節約できる。
本稿では,エッジ計算を対象とする混合精度畳み込みニューラルネットワーク(CNN)の量子化手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T18:11:37Z) - Variable Bitrate Neural Fields [75.24672452527795]
本稿では,特徴格子を圧縮し,メモリ消費を最大100倍に削減する辞書手法を提案する。
辞書の最適化をベクトル量子化オートデコーダ問題として定式化し、直接監督できない空間において、エンドツーエンドの離散神経表現を学習する。
論文 参考訳(メタデータ) (2022-06-15T17:58:34Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - SignalNet: A Low Resolution Sinusoid Decomposition and Estimation
Network [79.04274563889548]
本稿では,正弦波数を検出するニューラルネットワークアーキテクチャであるSignalNetを提案する。
基礎となるデータ分布と比較して,ネットワークの結果を比較するための最悪の学習しきい値を導入する。
シミュレーションでは、我々のアルゴリズムは常に3ビットデータのしきい値を超えることができるが、しばしば1ビットデータのしきい値を超えることはできない。
論文 参考訳(メタデータ) (2021-06-10T04:21:20Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。