論文の概要: Edge Inference with Fully Differentiable Quantized Mixed Precision
Neural Networks
- arxiv url: http://arxiv.org/abs/2206.07741v2
- Date: Tue, 29 Aug 2023 21:33:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 21:29:13.181496
- Title: Edge Inference with Fully Differentiable Quantized Mixed Precision
Neural Networks
- Title(参考訳): 完全微分型混合精度ニューラルネットワークによるエッジ推論
- Authors: Clemens JS Schaefer, Siddharth Joshi, Shan Li, Raul Blazquez
- Abstract要約: パラメータと演算をビット精度の低いものに量子化することで、ニューラルネットワークの推論にかなりのメモリとエネルギーを節約できる。
本稿では,エッジ計算を対象とする混合精度畳み込みニューラルネットワーク(CNN)の量子化手法を提案する。
- 参考スコア(独自算出の注目度): 1.131071436917293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The large computing and memory cost of deep neural networks (DNNs) often
precludes their use in resource-constrained devices. Quantizing the parameters
and operations to lower bit-precision offers substantial memory and energy
savings for neural network inference, facilitating the use of DNNs on edge
computing platforms. Recent efforts at quantizing DNNs have employed a range of
techniques encompassing progressive quantization, step-size adaptation, and
gradient scaling. This paper proposes a new quantization approach for mixed
precision convolutional neural networks (CNNs) targeting edge-computing. Our
method establishes a new pareto frontier in model accuracy and memory footprint
demonstrating a range of quantized models, delivering best-in-class accuracy
below 4.3 MB of weights (wgts.) and activations (acts.). Our main contributions
are: (i) hardware-aware heterogeneous differentiable quantization with
tensor-sliced learned precision, (ii) targeted gradient modification for wgts.
and acts. to mitigate quantization errors, and (iii) a multi-phase learning
schedule to address instability in learning arising from updates to the learned
quantizer and model parameters. We demonstrate the effectiveness of our
techniques on the ImageNet dataset across a range of models including
EfficientNet-Lite0 (e.g., 4.14MB of wgts. and acts. at 67.66% accuracy) and
MobileNetV2 (e.g., 3.51MB wgts. and acts. at 65.39% accuracy).
- Abstract(参考訳): ディープニューラルネットワーク(DNN)の大規模コンピューティングとメモリコストは、リソース制約のあるデバイスでの使用を妨げることが多い。
パラメータと演算を低ビット精度に定量化することで、ニューラルネットワーク推論のメモリと省エネが実現され、エッジコンピューティングプラットフォームでのdnnの使用が容易になる。
近年、DNNの量子化への取り組みは、進行量子化、ステップサイズ適応、勾配スケーリングを含む様々な手法を用いている。
本稿では,エッジ計算を対象とする混合精度畳み込みニューラルネットワーク(CNN)の量子化手法を提案する。
本手法は,様々な量子化モデルを示すモデル精度とメモリフットプリントにおける新たなパレートフロンティアを確立し,4.3mbの重み(wgts.)とアクティベーション(acts.)以下の精度を提供する。
私たちの主な貢献は
一 テンソルスライシング学習精度をもつハードウェア対応異種微分可能量子化
(ii) wgtsの目標勾配修正。
そして行動する
量子化エラーを軽減し
(3)学習量化器とモデルパラメータの更新から生じる学習の不安定性に対処する多段階学習スケジュール。
EfficientNet-Lite0(4.14MBのwgt、67.66%の精度で動作)やMobileNetV2(3.51MBのwgt、65.39%の精度で動作)を含む、さまざまなモデルにわたるImageNetデータセットにおける我々の技術の有効性を実証する。
関連論文リスト
- Low-bit Quantization for Deep Graph Neural Networks with
Smoothness-aware Message Propagation [3.9177379733188715]
本稿では,資源制約のある環境において,これらの課題に対処するためのエンドツーエンドソリューションを提案する。
本稿では,学習中のメッセージパッシングからノード分類まで,GNNのすべての段階に対する量子化に基づくアプローチを提案する。
提案した量子化器は量子化範囲を学習し、低ビット量子化の下でも同等の精度でモデルサイズを削減する。
論文 参考訳(メタデータ) (2023-08-29T00:25:02Z) - Low Precision Quantization-aware Training in Spiking Neural Networks
with Differentiable Quantization Function [0.5046831208137847]
この研究は、量子化されたニューラルネットワークの最近の進歩とスパイクニューラルネットワークのギャップを埋めることを目的としている。
これは、シグモイド関数の線形結合として表される量子化関数の性能に関する広範な研究を示す。
提案した量子化関数は、4つの人気のあるベンチマーク上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-05-30T09:42:05Z) - A Comprehensive Survey on Model Quantization for Deep Neural Networks in
Image Classification [0.0]
有望なアプローチは量子化であり、完全な精度の値は低ビット幅の精度で保存される。
本稿では、画像分類に焦点をあてて、量子化の概念と方法に関する包括的調査を行う。
本稿では,量子化DNNにおける浮動小数点演算の低コストなビット演算への置き換えと,量子化における異なる層の感度について説明する。
論文 参考訳(メタデータ) (2022-05-14T15:08:32Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers [67.688697838109]
本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。
2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
論文 参考訳(メタデータ) (2021-11-29T09:30:06Z) - ECQ$^{\text{x}}$: Explainability-Driven Quantization for Low-Bit and
Sparse DNNs [13.446502051609036]
我々はディープニューラルネットワーク(DNN)のための新しい量子化パラダイムを開発し、記述する。
本手法は,説明可能なAI(XAI)の概念と情報理論の概念を活用する。
最終的な目標は、最高の情報内容の量子化クラスタにおいて、最も関連性の高い重みを維持することである。
論文 参考訳(メタデータ) (2021-09-09T12:57:06Z) - A High-Performance Adaptive Quantization Approach for Edge CNN
Applications [0.225596179391365]
最近の畳み込みニューラルネットワーク(CNN)開発は、様々なアプリケーションに対する最先端のモデル精度を推し進めている。
精度の向上は、かなりのメモリ帯域幅とストレージ要求のコストが伴う。
本稿では,偏りのあるアクティベーションの問題を解決するための適応型高性能量子化法を提案する。
論文 参考訳(メタデータ) (2021-07-18T07:49:18Z) - Low-Precision Training in Logarithmic Number System using Multiplicative
Weight Update [49.948082497688404]
大規模ディープニューラルネットワーク(DNN)のトレーニングは、現在かなりの量のエネルギーを必要としており、深刻な環境影響をもたらす。
エネルギーコストを削減するための有望なアプローチの1つは、DNNを低精度で表現することである。
対数数システム(LNS)と乗算重み更新訓練法(LNS-Madam)を併用した低精度トレーニングフレームワークを共同で設計する。
論文 参考訳(メタデータ) (2021-06-26T00:32:17Z) - ActNN: Reducing Training Memory Footprint via 2-Bit Activation
Compressed Training [68.63354877166756]
ActNNは、バック伝搬のためのランダムに量子化されたアクティベーションを格納するメモリ効率のトレーニングフレームワークである。
ActNNはアクティベーションのメモリフットプリントを12倍に削減し、6.6倍から14倍のバッチサイズでトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-04-29T05:50:54Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。