論文の概要: OPQ: Compressing Deep Neural Networks with One-shot Pruning-Quantization
- arxiv url: http://arxiv.org/abs/2205.11141v1
- Date: Mon, 23 May 2022 09:05:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 10:28:09.348035
- Title: OPQ: Compressing Deep Neural Networks with One-shot Pruning-Quantization
- Title(参考訳): OPQ: ワンショットプルーニング量子化によるディープニューラルネットワーク圧縮
- Authors: Peng Hu, Xi Peng, Hongyuan Zhu, Mohamed M. Sabry Aly, Jie Lin
- Abstract要約: 本稿では,新しいワンショットプルーニング量子化(OPQ)を提案する。
OPQは、事前訓練された重みパラメータのみによる圧縮割り当てを解析的に解決する。
本稿では,共通コードブックを共有するために各レイヤの全チャネルを強制する,統一的なチャネルワイド量子化手法を提案する。
- 参考スコア(独自算出の注目度): 32.60139548889592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Deep Neural Networks (DNNs) usually are overparameterized and have
millions of weight parameters, it is challenging to deploy these large DNN
models on resource-constrained hardware platforms, e.g., smartphones. Numerous
network compression methods such as pruning and quantization are proposed to
reduce the model size significantly, of which the key is to find suitable
compression allocation (e.g., pruning sparsity and quantization codebook) of
each layer. Existing solutions obtain the compression allocation in an
iterative/manual fashion while finetuning the compressed model, thus suffering
from the efficiency issue. Different from the prior art, we propose a novel
One-shot Pruning-Quantization (OPQ) in this paper, which analytically solves
the compression allocation with pre-trained weight parameters only. During
finetuning, the compression module is fixed and only weight parameters are
updated. To our knowledge, OPQ is the first work that reveals pre-trained model
is sufficient for solving pruning and quantization simultaneously, without any
complex iterative/manual optimization at the finetuning stage. Furthermore, we
propose a unified channel-wise quantization method that enforces all channels
of each layer to share a common codebook, which leads to low bit-rate
allocation without introducing extra overhead brought by traditional
channel-wise quantization. Comprehensive experiments on ImageNet with
AlexNet/MobileNet-V1/ResNet-50 show that our method improves accuracy and
training efficiency while obtains significantly higher compression rates
compared to the state-of-the-art.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は通常、過パラメータ化され、数百万の重みパラメータを持つため、これらの大きなDNNモデルを、例えばスマートフォンのようなリソース制約のあるハードウェアプラットフォームにデプロイすることは困難である。
各層の適切な圧縮割り当て(例えば、pruning sparsity と quantization codebook)を見つけることが鍵となるモデルサイズを大幅に削減するために、pruning や quantization のような多くのネットワーク圧縮手法が提案されている。
既存の解は圧縮モデルを微調整しながら反復的/連続的に圧縮割り当てを得るため、効率の問題に苦しむ。
従来の手法と異なり,本論文では,事前学習した重みパラメータによる圧縮割り当てを解析的に解決するワンショットプルーニング量子化法(OPQ)を提案する。
微調整中、圧縮モジュールは固定され、重みパラメータのみが更新される。
我々の知る限り、OPQは、微調整段階において複雑な反復/手動の最適化を伴わずに、プルーニングと量子化を同時に解くのに十分な事前学習モデルを明らかにする最初の研究である。
さらに,従来のチャネルワイド量子化によるオーバーヘッドを伴わずに,各レイヤのすべてのチャネルに共通コードブックを共有するように強制する統一チャネルワイド量子化手法を提案する。
AlexNet/MobileNet-V1/ResNet-50 を用いた ImageNet の総合的な実験により,提案手法は精度と訓練効率を向上するとともに,最先端技術と比較して大幅に高い圧縮速度が得られることを示した。
関連論文リスト
- DeepHQ: Learned Hierarchical Quantizer for Progressive Deep Image Coding [27.875207681547074]
プログレッシブ画像符号化(PIC)は、画像の様々な品質を単一のビットストリームに圧縮することを目的としている。
ニューラルネットワーク(NN)に基づくPICの研究は、その初期段階にある。
本稿では,まず,学習した量子化ステップサイズを各量子化レイヤの学習により活用するNNベースのプログレッシブコーディング手法を提案する。
論文 参考訳(メタデータ) (2024-08-22T06:32:53Z) - Retraining-free Model Quantization via One-Shot Weight-Coupling Learning [41.299675080384]
混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。
MPQは典型的には、探索訓練された2段階のプロセスに編成される。
本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。
論文 参考訳(メタデータ) (2024-01-03T05:26:57Z) - Rotation Invariant Quantization for Model Compression [7.633595230914364]
トレーニング後のニューラルネットワーク(NN)モデル圧縮は、メモリリソースが限られているデバイスに大規模なメモリ消費モデルを展開するための魅力的なアプローチである。
NNモデル全体の量子化に単一パラメータを用いる回転不変量子化(RIQ)手法を提案する。
論文 参考訳(メタデータ) (2023-03-03T10:53:30Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - BSQ: Exploring Bit-Level Sparsity for Mixed-Precision Neural Network
Quantization [32.770842274996774]
混合精度量子化は、ディープニューラルネットワークの性能と圧縮率の最適なトレードオフを実現できる可能性がある。
従来の方法は、小さな手作業で設計された検索空間のみを調べるか、面倒なニューラルネットワークアーキテクチャ検索を使用して広大な検索空間を探索する。
本研究では、ビットレベルスパーシティを誘導する新たな角度から、混合精度量子化に取り組むためのビットレベルスパーシティ量子化(BSQ)を提案する。
論文 参考訳(メタデータ) (2021-02-20T22:37:41Z) - Single-path Bit Sharing for Automatic Loss-aware Model Compression [126.98903867768732]
シングルパスビット共有(SBS)は、計算コストを大幅に削減し、有望な性能を達成する。
SBS圧縮MobileNetV2は、Top-1の精度がわずか0.1%低下した22.6倍ビット演算(BOP)を実現する。
論文 参考訳(メタデータ) (2021-01-13T08:28:21Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z) - Kernel Quantization for Efficient Network Compression [59.55192551370948]
Kernel Quantization(KQ)は、事前訓練された全精度畳み込みニューラルネットワーク(CNN)モデルを、大幅なパフォーマンス損失のない低精度バージョンに効率的に変換することを目的としている。
重み付けからフィルタプルーニングへの進化に触発され,カーネルレベルと重み付けレベルの両方で定量化することを提案する。
ImageNet分類タスクの実験では、KQはVGGとResNet18でそれぞれ平均1.05ビットと1.62ビットを必要とし、畳み込み層の各パラメータを表す。
論文 参考訳(メタデータ) (2020-03-11T08:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。