論文の概要: Differentiable Joint Pruning and Quantization for Hardware Efficiency
- arxiv url: http://arxiv.org/abs/2007.10463v2
- Date: Sun, 4 Apr 2021 18:45:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 12:54:41.667593
- Title: Differentiable Joint Pruning and Quantization for Hardware Efficiency
- Title(参考訳): ハードウェア効率のための可変継手成形と量子化
- Authors: Ying Wang, Yadong Lu and Tijmen Blankevoort
- Abstract要約: DJPQは、変動情報ボトルネックに基づく構造化プルーニングと混合ビット精度量子化を1つの微分可能損失関数に組み込む。
DJPQは、複数のネットワークにおけるビット演算数(BOP)を大幅に削減し、元の浮動小数点モデルのトップ1の精度を維持していることを示す。
- 参考スコア(独自算出の注目度): 16.11027058505213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a differentiable joint pruning and quantization (DJPQ) scheme. We
frame neural network compression as a joint gradient-based optimization
problem, trading off between model pruning and quantization automatically for
hardware efficiency. DJPQ incorporates variational information bottleneck based
structured pruning and mixed-bit precision quantization into a single
differentiable loss function. In contrast to previous works which consider
pruning and quantization separately, our method enables users to find the
optimal trade-off between both in a single training procedure. To utilize the
method for more efficient hardware inference, we extend DJPQ to integrate
structured pruning with power-of-two bit-restricted quantization. We show that
DJPQ significantly reduces the number of Bit-Operations (BOPs) for several
networks while maintaining the top-1 accuracy of original floating-point models
(e.g., 53x BOPs reduction in ResNet18 on ImageNet, 43x in MobileNetV2).
Compared to the conventional two-stage approach, which optimizes pruning and
quantization independently, our scheme outperforms in terms of both accuracy
and BOPs. Even when considering bit-restricted quantization, DJPQ achieves
larger compression ratios and better accuracy than the two-stage approach.
- Abstract(参考訳): 本稿では,DJPQ方式について述べる。
ニューラルネットワーク圧縮を結合勾配に基づく最適化問題として,モデルプルーニングと量子化のトレードオフをハードウェア効率のために自動的に行う。
DJPQは、変動情報ボトルネックに基づく構造化プルーニングと混合ビット精度量子化を1つの微分可能損失関数に組み込む。
プルーニングと量子化を別々に考慮した先行研究とは対照的に,1つのトレーニング手順で両者の最適なトレードオフを見つけることができる。
より効率的なハードウェア推論に利用するために、DJPQを拡張して、構造化プルーニングと2ビット制限量子化を統合する。
DJPQは、元の浮動小数点モデルのトップ1の精度を維持しつつ、複数のネットワークにおけるビット演算(BOP)数を著しく削減する(例えば、ImageNet18上のResNet18の53倍、MobileNetV2の43倍)。
プルーニングと量子化を独立に最適化する従来の2段階アプローチと比較して,提案手法は精度とBOPの両方で優れる。
ビット制限量子化を考えるときでさえ、DJPQは2段階の手法よりも大きな圧縮比と精度を達成する。
関連論文リスト
- RepQuant: Towards Accurate Post-Training Quantization of Large
Transformer Models via Scale Reparameterization [8.827794405944637]
ポストトレーニング量子化(PTQ)は、大きなトランスモデルを圧縮するための有望な解である。
既存のPTQメソッドは、通常、非自明な性能損失を示す。
本稿では、量子化推論デカップリングパラダイムを備えた新しいPTQフレームワークRepQuantを提案する。
論文 参考訳(メタデータ) (2024-02-08T12:35:41Z) - Overcoming Distribution Mismatch in Quantizing Image Super-Resolution
Networks [60.37328488058772]
本稿では,SRネットワークにおける分散ミスマッチ問題を効果的に克服する量子化対応学習フレームワークを提案する。
提案アルゴリズムはODMと呼ばれ,計算オーバーヘッドを最小限に抑えた分散におけるミスマッチを効果的に低減する。
論文 参考訳(メタデータ) (2023-07-25T08:50:01Z) - SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - OPQ: Compressing Deep Neural Networks with One-shot Pruning-Quantization [32.60139548889592]
本稿では,新しいワンショットプルーニング量子化(OPQ)を提案する。
OPQは、事前訓練された重みパラメータのみによる圧縮割り当てを解析的に解決する。
本稿では,共通コードブックを共有するために各レイヤの全チャネルを強制する,統一的なチャネルワイド量子化手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T09:05:25Z) - BSQ: Exploring Bit-Level Sparsity for Mixed-Precision Neural Network
Quantization [32.770842274996774]
混合精度量子化は、ディープニューラルネットワークの性能と圧縮率の最適なトレードオフを実現できる可能性がある。
従来の方法は、小さな手作業で設計された検索空間のみを調べるか、面倒なニューラルネットワークアーキテクチャ検索を使用して広大な検索空間を探索する。
本研究では、ビットレベルスパーシティを誘導する新たな角度から、混合精度量子化に取り組むためのビットレベルスパーシティ量子化(BSQ)を提案する。
論文 参考訳(メタデータ) (2021-02-20T22:37:41Z) - Single-path Bit Sharing for Automatic Loss-aware Model Compression [126.98903867768732]
シングルパスビット共有(SBS)は、計算コストを大幅に削減し、有望な性能を達成する。
SBS圧縮MobileNetV2は、Top-1の精度がわずか0.1%低下した22.6倍ビット演算(BOP)を実現する。
論文 参考訳(メタデータ) (2021-01-13T08:28:21Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - PAMS: Quantized Super-Resolution via Parameterized Max Scale [84.55675222525608]
深部畳み込みニューラルネットワーク(DCNN)は超解像処理(SR)において優位な性能を示した
本稿では,PAMS(Parameterized Max Scale)と呼ばれる新しい量子化手法を提案する。
実験により,提案手法はEDSRやRDNなどの既存のSRモデルを適切に圧縮・高速化できることが示された。
論文 参考訳(メタデータ) (2020-11-09T06:16:05Z) - FracBits: Mixed Precision Quantization via Fractional Bit-Widths [29.72454879490227]
混合精度量子化は、複数のビット幅での算術演算をサポートするカスタマイズハードウェアで好適である。
本稿では,目標計算制約下での混合精度モデルに基づく学習に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-04T06:09:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。