論文の概要: Joint Pruning & Quantization for Extremely Sparse Neural Networks
- arxiv url: http://arxiv.org/abs/2010.01892v1
- Date: Mon, 5 Oct 2020 10:04:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 21:48:55.766271
- Title: Joint Pruning & Quantization for Extremely Sparse Neural Networks
- Title(参考訳): 超スパースニューラルネットワークの連成プルーニングと量子化
- Authors: Po-Hsiang Yu, Sih-Sian Wu, Jan P. Klopp, Liang-Gee Chen, Shao-Yi Chien
- Abstract要約: 本稿では,2段階のプルーニング・量子化パイプラインを提案し,テイラー・スコアと新しい微調整モードを導入し,性能を犠牲にすることなく極端にスペーサ性を実現する。
我々の評価は、プルーニングと量子化を共同で検討すべきであることを示すだけでなく、ハードウェアコストを99.9%に削減できる一方で、メモリ需要の99%近くを削減できることを示している。
- 参考スコア(独自算出の注目度): 28.547692827089573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate pruning and quantization for deep neural networks. Our goal is
to achieve extremely high sparsity for quantized networks to enable
implementation on low cost and low power accelerator hardware. In a practical
scenario, there are particularly many applications for dense prediction tasks,
hence we choose stereo depth estimation as target.
We propose a two stage pruning and quantization pipeline and introduce a
Taylor Score alongside a new fine-tuning mode to achieve extreme sparsity
without sacrificing performance.
Our evaluation does not only show that pruning and quantization should be
investigated jointly, but also shows that almost 99% of memory demand can be
cut while hardware costs can be reduced up to 99.9%. In addition, to compare
with other works, we demonstrate that our pruning stage alone beats the
state-of-the-art when applied to ResNet on CIFAR10 and ImageNet.
- Abstract(参考訳): 深層ニューラルネットワークのプルーニングと量子化について検討する。
私たちの目標は、量子化ネットワークが低コストかつ低消費電力のアクセラレータハードウェアの実装を可能にするために、非常に高いスパース性を達成することです。
現実的なシナリオでは、高密度予測タスクには特に多くの応用があり、ステレオ深度推定をターゲットとして選択する。
本稿では,2段階のプルーニング・量子化パイプラインを提案し,テイラー・スコアと新しい微調整モードを導入し,性能を犠牲にすることなく極端にスペーサ性を実現する。
我々の評価は、プルーニングと量子化を共同で検討すべきであることを示すだけでなく、ハードウェアコストを99.9%に削減できる一方で、メモリ需要の99%近くを削減できることを示している。
さらに,他の研究と比較し,CIFAR10とImageNetのResNetに適用した場合,プルーニングステージだけで最先端技術に勝ることを示す。
関連論文リスト
- Joint Pruning and Channel-wise Mixed-Precision Quantization for Efficient Deep Neural Networks [10.229120811024162]
ディープニューラルネットワーク(DNN)は、エッジデバイスへのデプロイメントに重大な課題をもたらす。
この問題に対処する一般的なアプローチは、プルーニングと混合精度量子化である。
そこで本研究では,軽量な勾配探索を用いて共同で適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T08:07:02Z) - Shaving Weights with Occam's Razor: Bayesian Sparsification for Neural Networks Using the Marginal Likelihood [86.70040320522432]
ニューラルネットワークのスパーシフィケーションは、計算時間とメモリコストを削減できる有望な方法である。
Sparsifiability via the Marginal chance (SpaM) a pruning framework。
当社のフレームワークの有効性を,特に高頻度で実証する。
論文 参考訳(メタデータ) (2024-02-25T03:48:13Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Bag of Tricks with Quantized Convolutional Neural Networks for image
classification [9.240992450548132]
深層ニューラルネットワークの学習後量子化のためのゴールドガイドラインを提案する。
提案手法の有効性を,ImageNetデータセット上でResNet50とMobileNetV2の2つの人気モデルを用いて評価した。
その結果,30%の空間幅を持つ量子化されたMobileNetV2が,等価な完全精度モデルの性能を実際に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-03-13T13:05:33Z) - Standard Deviation-Based Quantization for Deep Neural Networks [17.495852096822894]
深層ニューラルネットワークの量子化は、推論コストを低減するための有望なアプローチである。
ネットワークの重みと活性化分布の知識を用いて量子化間隔(離散値)を学習する新しいフレームワークを提案する。
提案手法は,ネットワークのパラメータを同時に推定し,量子化過程におけるプルーニング比を柔軟に調整する。
論文 参考訳(メタデータ) (2022-02-24T23:33:47Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - A White Paper on Neural Network Quantization [20.542729144379223]
本稿では,量子化ノイズがネットワークの性能に与える影響を緩和する最新アルゴリズムを提案する。
我々は,ポストトレーニング量子化(PTQ)と量子化アウェア・トレーニング(QAT)の2つのアルゴリズムについて考察する。
論文 参考訳(メタデータ) (2021-06-15T17:12:42Z) - Toward Compact Deep Neural Networks via Energy-Aware Pruning [2.578242050187029]
ネットワークにおける各フィルタの重要性を核ノルム(NN)を用いて定量化する新しいエネルギー対応プルーニング手法を提案する。
FLOPの40.4/49.8%、パラメータ還元の45.9/52.9%、トップ1の精度の94.13/94.61%、CIFAR-10のResNet-56/110で競合する結果を得た。
論文 参考訳(メタデータ) (2021-03-19T15:33:16Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - Progressive Skeletonization: Trimming more fat from a network at
initialization [76.11947969140608]
本稿では,接続感度が最大となるスケルトン化ネットワークを提案する。
次に、目的を最大化する2つの近似手順を提案する。
提案手法は, 高い刈り込みレベルにおいて, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-06-16T11:32:47Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。