論文の概要: Differentiable Joint Pruning and Quantization for Hardware Efficiency
- arxiv url: http://arxiv.org/abs/2007.10463v2
- Date: Sun, 4 Apr 2021 18:45:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 12:54:41.667593
- Title: Differentiable Joint Pruning and Quantization for Hardware Efficiency
- Title(参考訳): ハードウェア効率のための可変継手成形と量子化
- Authors: Ying Wang, Yadong Lu and Tijmen Blankevoort
- Abstract要約: DJPQは、変動情報ボトルネックに基づく構造化プルーニングと混合ビット精度量子化を1つの微分可能損失関数に組み込む。
DJPQは、複数のネットワークにおけるビット演算数(BOP)を大幅に削減し、元の浮動小数点モデルのトップ1の精度を維持していることを示す。
- 参考スコア(独自算出の注目度): 16.11027058505213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a differentiable joint pruning and quantization (DJPQ) scheme. We
frame neural network compression as a joint gradient-based optimization
problem, trading off between model pruning and quantization automatically for
hardware efficiency. DJPQ incorporates variational information bottleneck based
structured pruning and mixed-bit precision quantization into a single
differentiable loss function. In contrast to previous works which consider
pruning and quantization separately, our method enables users to find the
optimal trade-off between both in a single training procedure. To utilize the
method for more efficient hardware inference, we extend DJPQ to integrate
structured pruning with power-of-two bit-restricted quantization. We show that
DJPQ significantly reduces the number of Bit-Operations (BOPs) for several
networks while maintaining the top-1 accuracy of original floating-point models
(e.g., 53x BOPs reduction in ResNet18 on ImageNet, 43x in MobileNetV2).
Compared to the conventional two-stage approach, which optimizes pruning and
quantization independently, our scheme outperforms in terms of both accuracy
and BOPs. Even when considering bit-restricted quantization, DJPQ achieves
larger compression ratios and better accuracy than the two-stage approach.
- Abstract(参考訳): 本稿では,DJPQ方式について述べる。
ニューラルネットワーク圧縮を結合勾配に基づく最適化問題として,モデルプルーニングと量子化のトレードオフをハードウェア効率のために自動的に行う。
DJPQは、変動情報ボトルネックに基づく構造化プルーニングと混合ビット精度量子化を1つの微分可能損失関数に組み込む。
プルーニングと量子化を別々に考慮した先行研究とは対照的に,1つのトレーニング手順で両者の最適なトレードオフを見つけることができる。
より効率的なハードウェア推論に利用するために、DJPQを拡張して、構造化プルーニングと2ビット制限量子化を統合する。
DJPQは、元の浮動小数点モデルのトップ1の精度を維持しつつ、複数のネットワークにおけるビット演算(BOP)数を著しく削減する(例えば、ImageNet18上のResNet18の53倍、MobileNetV2の43倍)。
プルーニングと量子化を独立に最適化する従来の2段階アプローチと比較して,提案手法は精度とBOPの両方で優れる。
ビット制限量子化を考えるときでさえ、DJPQは2段階の手法よりも大きな圧縮比と精度を達成する。
関連論文リスト
- PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [87.89013794655207]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - OPQ: Compressing Deep Neural Networks with One-shot Pruning-Quantization [32.60139548889592]
本稿では,新しいワンショットプルーニング量子化(OPQ)を提案する。
OPQは、事前訓練された重みパラメータのみによる圧縮割り当てを解析的に解決する。
本稿では,共通コードブックを共有するために各レイヤの全チャネルを強制する,統一的なチャネルワイド量子化手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T09:05:25Z) - BSQ: Exploring Bit-Level Sparsity for Mixed-Precision Neural Network
Quantization [32.770842274996774]
混合精度量子化は、ディープニューラルネットワークの性能と圧縮率の最適なトレードオフを実現できる可能性がある。
従来の方法は、小さな手作業で設計された検索空間のみを調べるか、面倒なニューラルネットワークアーキテクチャ検索を使用して広大な検索空間を探索する。
本研究では、ビットレベルスパーシティを誘導する新たな角度から、混合精度量子化に取り組むためのビットレベルスパーシティ量子化(BSQ)を提案する。
論文 参考訳(メタデータ) (2021-02-20T22:37:41Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - PAMS: Quantized Super-Resolution via Parameterized Max Scale [84.55675222525608]
深部畳み込みニューラルネットワーク(DCNN)は超解像処理(SR)において優位な性能を示した
本稿では,PAMS(Parameterized Max Scale)と呼ばれる新しい量子化手法を提案する。
実験により,提案手法はEDSRやRDNなどの既存のSRモデルを適切に圧縮・高速化できることが示された。
論文 参考訳(メタデータ) (2020-11-09T06:16:05Z) - FracBits: Mixed Precision Quantization via Fractional Bit-Widths [29.72454879490227]
混合精度量子化は、複数のビット幅での算術演算をサポートするカスタマイズハードウェアで好適である。
本稿では,目標計算制約下での混合精度モデルに基づく学習に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-04T06:09:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。