論文の概要: Pruning Ternary Quantization
- arxiv url: http://arxiv.org/abs/2107.10998v1
- Date: Fri, 23 Jul 2021 02:18:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-26 14:03:22.278709
- Title: Pruning Ternary Quantization
- Title(参考訳): プルーニング三元量子化
- Authors: Dan Liu, Xi Chen, Jie Fu, Xue Liu
- Abstract要約: PTQはプルーニングとL2プロジェクションを用いることで,正規重みを3次正規正規基底に変換することができることを示す。
本手法はプルーニングと量子化を統一し,サイズ・精度のトレードオフを実現する。
- 参考スコア(独自算出の注目度): 32.422757564786636
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose pruning ternary quantization (PTQ), a simple, yet effective,
symmetric ternary quantization method. The method significantly compresses
neural network weights to a sparse ternary of [-1,0,1] and thus reduces
computational, storage, and memory footprints. We show that PTQ can convert
regular weights to ternary orthonormal bases by simply using pruning and L2
projection. In addition, we introduce a refined straight-through estimator to
finalize and stabilize the quantized weights. Our method can provide at most
46x compression ratio on the ResNet-18 structure, with an acceptable accuracy
of 65.36%, outperforming leading methods. Furthermore, PTQ can compress a
ResNet-18 model from 46 MB to 955KB (~48x) and a ResNet-50 model from 99 MB to
3.3MB (~30x), while the top-1 accuracy on ImageNet drops slightly from 69.7% to
65.3% and from 76.15% to 74.47%, respectively. Our method unifies pruning and
quantization and thus provides a range of size-accuracy trade-off.
- Abstract(参考訳): 本稿では,単純かつ効率的で対称な三元量子化法であるpruning ternary quantization (ptq)を提案する。
この方法では、ニューラルネットワークの重みを[-1,0,1]の疎三項に著しく圧縮し、計算、記憶、メモリフットプリントを低減する。
PTQはプルーニングとL2プロジェクションを用いることで,正規重みを3次正規正規基底に変換することができることを示す。
さらに、量子化重みを確定・安定化する改良された直線スルー推定器を導入する。
本手法はresnet-18構造の圧縮率を最大46倍とし,65.36%の許容精度で達成できる。
さらに、PTQはResNet-18モデルを46MBから955KB(~48x)に、ResNet-50モデルを99MBから3.3MB(~30x)に、ImageNet上のトップ1の精度は69.7%から65.3%に、それぞれ76.15%から74.47%に下げることができる。
本手法はプルーニングと量子化を統一し,サイズ・精度のトレードオフを実現する。
関連論文リスト
- 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Hyperspherical Quantization: Toward Smaller and More Accurate Models [17.154801913113566]
ベクトル量子化は、モデルウェイトを高精度な埋め込みでインデックス化することで、モデルサイズを減らすことを目的としている。
バイナリや他の低精度量子化法は、モデルのサイズを32$times$まで削減できるが、かなりの精度低下を犠牲にすることができる。
より小型で高精度な圧縮モデルを生成するために, 3次量子化のための効率的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-24T04:42:15Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - One Model for All Quantization: A Quantized Network Supporting Hot-Swap
Bit-Width Adjustment [36.75157407486302]
多様なビット幅をサポートする全量子化のためのモデルを訓練する手法を提案する。
重みの多様性を高めるためにウェーブレット分解と再構成を用いる。
同じ精度で訓練された専用モデルに匹敵する精度が得られる。
論文 参考訳(メタデータ) (2021-05-04T08:10:50Z) - Differentiable Model Compression via Pseudo Quantization Noise [99.89011673907814]
本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。
本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
論文 参考訳(メタデータ) (2021-04-20T14:14:03Z) - n-hot: Efficient bit-level sparsity for powers-of-two neural network
quantization [0.0]
パワーオブツー(PoT)量子化は、リソース制約ハードウェア上でのディープニューラルネットワークのビット演算数を減少させる。
PoT量子化は、表現能力が限られているため、深刻な精度低下を引き起こす。
メモリ効率の高い方法で精度とコストを両立した効率的なPoT量子化方式を提案する。
論文 参考訳(メタデータ) (2021-03-22T10:13:12Z) - One Weight Bitwidth to Rule Them All [24.373061354080825]
ネットワーク全体に対して1ビット幅を使用すると、混合精度の量子化よりも精度がよいことを示す。
この結果から,チャネル数が対象のハイパーパラメータとなると,ネットワーク全体のシングルウェイトビット幅がモデル圧縮に優れた結果を示すことが示唆された。
論文 参考訳(メタデータ) (2020-08-22T21:40:22Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。