論文の概要: DNN Memory Footprint Reduction via Post-Training Intra-Layer Multi-Precision Quantization
- arxiv url: http://arxiv.org/abs/2404.02947v1
- Date: Wed, 3 Apr 2024 15:06:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 18:54:31.480540
- Title: DNN Memory Footprint Reduction via Post-Training Intra-Layer Multi-Precision Quantization
- Title(参考訳): 階層内多重精度量子化によるDNNメモリのフットプリント削減
- Authors: Behnam Ghavami, Amin Kamjoo, Lesley Shannon, Steve Wilton,
- Abstract要約: 本稿では,資源制約エッジデバイス上でのディープニューラルネットワーク(DNN)モデルのメモリフットプリントを効果的に削減する手法を提案する。
提案手法は,PTILMPQ (Post-Training intra-Layer Multi-Precision Quantization) と名付けられ,トレーニング後の量子化手法を用いて,広範囲なトレーニングデータを必要としない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The imperative to deploy Deep Neural Network (DNN) models on resource-constrained edge devices, spurred by privacy concerns, has become increasingly apparent. To facilitate the transition from cloud to edge computing, this paper introduces a technique that effectively reduces the memory footprint of DNNs, accommodating the limitations of resource-constrained edge devices while preserving model accuracy. Our proposed technique, named Post-Training Intra-Layer Multi-Precision Quantization (PTILMPQ), employs a post-training quantization approach, eliminating the need for extensive training data. By estimating the importance of layers and channels within the network, the proposed method enables precise bit allocation throughout the quantization process. Experimental results demonstrate that PTILMPQ offers a promising solution for deploying DNNs on edge devices with restricted memory resources. For instance, in the case of ResNet50, it achieves an accuracy of 74.57\% with a memory footprint of 9.5 MB, representing a 25.49\% reduction compared to previous similar methods, with only a minor 1.08\% decrease in accuracy.
- Abstract(参考訳): プライバシの懸念から引き起こされたリソース制約のあるエッジデバイスにDeep Neural Network(DNN)モデルをデプロイする義務は、ますます明確になっている。
クラウドからエッジコンピューティングへの移行を容易にするため,DNNのメモリフットプリントを効果的に削減し,モデル精度を保ちながら資源制約されたエッジデバイスの限界を緩和する手法を提案する。
提案手法は,PTILMPQ (Post-Training intra-Layer Multi-Precision Quantization) と命名され,トレーニング後の量子化手法を用いて,広範囲なトレーニングデータを必要としない。
ネットワーク内のレイヤやチャネルの重要性を推定することにより、量子化プロセス全体にわたって正確なビット割り当てを可能にする。
実験の結果,PTILMPQはメモリリソースが制限されたエッジデバイスにDNNをデプロイするための有望なソリューションを提供することがわかった。
例えば ResNet50 の場合、メモリフットプリント 9.5 MB で 74.57 % の精度を達成し、従来の類似の手法に比べて 25.49 % の削減を実現している。
関連論文リスト
- MINT: Multiplier-less INTeger Quantization for Energy Efficient Spiking
Neural Networks [20.473852621915956]
スパイキングニューラルネットワーク(SNN)における重みと膜電位を効率よく圧縮する一様量子化手法を提案する。
MINTは膜電位を非常に低い精度(2ビット)に量子化し、メモリフットプリントを大幅に減少させる。
実験結果から,本手法は実精度モデルや他の最先端SNN量子化手法の精度と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-16T23:38:35Z) - Bag of Tricks with Quantized Convolutional Neural Networks for image
classification [9.240992450548132]
深層ニューラルネットワークの学習後量子化のためのゴールドガイドラインを提案する。
提案手法の有効性を,ImageNetデータセット上でResNet50とMobileNetV2の2つの人気モデルを用いて評価した。
その結果,30%の空間幅を持つ量子化されたMobileNetV2が,等価な完全精度モデルの性能を実際に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-03-13T13:05:33Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Edge Inference with Fully Differentiable Quantized Mixed Precision
Neural Networks [1.131071436917293]
パラメータと演算をビット精度の低いものに量子化することで、ニューラルネットワークの推論にかなりのメモリとエネルギーを節約できる。
本稿では,エッジ計算を対象とする混合精度畳み込みニューラルネットワーク(CNN)の量子化手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T18:11:37Z) - Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers [67.688697838109]
本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。
2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
論文 参考訳(メタデータ) (2021-11-29T09:30:06Z) - Low-Precision Training in Logarithmic Number System using Multiplicative
Weight Update [49.948082497688404]
大規模ディープニューラルネットワーク(DNN)のトレーニングは、現在かなりの量のエネルギーを必要としており、深刻な環境影響をもたらす。
エネルギーコストを削減するための有望なアプローチの1つは、DNNを低精度で表現することである。
対数数システム(LNS)と乗算重み更新訓練法(LNS-Madam)を併用した低精度トレーニングフレームワークを共同で設計する。
論文 参考訳(メタデータ) (2021-06-26T00:32:17Z) - ActNN: Reducing Training Memory Footprint via 2-Bit Activation
Compressed Training [68.63354877166756]
ActNNは、バック伝搬のためのランダムに量子化されたアクティベーションを格納するメモリ効率のトレーニングフレームワークである。
ActNNはアクティベーションのメモリフットプリントを12倍に削減し、6.6倍から14倍のバッチサイズでトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-04-29T05:50:54Z) - Deep Neural Networks Based Weight Approximation and Computation Reuse
for 2-D Image Classification [0.9507070656654631]
ディープニューラルネットワーク(DNN)は計算とメモリ集約である。
本稿では,近似計算とデータ再利用手法を融合させ,DNNs性能を改善する新しい手法を提案する。
IoTエッジデバイスに適しており、メモリサイズ要件と必要なメモリアクセス数を削減します。
論文 参考訳(メタデータ) (2021-04-28T10:16:53Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z) - Shifted and Squeezed 8-bit Floating Point format for Low-Precision
Training of Deep Neural Networks [13.929168096016957]
本研究では,8ビット浮動小数点(FP8)数を用いたディープニューラルネットワークのトレーニング手法を提案する。
ビット精度の低減により、有効メモリが大きくなり、計算速度が向上する。
提案手法は,従来の8ビット精度訓練法と異なり,代表モデルに対して最初から動作可能であることを示す。
論文 参考訳(メタデータ) (2020-01-16T06:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。