論文の概要: Neural Network Compression using Binarization and Few Full-Precision
Weights
- arxiv url: http://arxiv.org/abs/2306.08960v2
- Date: Fri, 15 Sep 2023 12:13:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 18:16:35.636626
- Title: Neural Network Compression using Binarization and Few Full-Precision
Weights
- Title(参考訳): 2値化と重み付けによるニューラルネットワーク圧縮
- Authors: Franco Maria Nardini, Cosimo Rulli, Salvatore Trani, Rossano Venturini
- Abstract要約: 自動Prune Binarization (APB) は量子化とプルーニングを組み合わせた新しい圧縮技術である。
APBは、数個の完全精度重みを使ってバイナリネットワークの表現能力を向上する。
APBは最先端の方法よりも精度とメモリのトレードオフが優れている。
- 参考スコア(独自算出の注目度): 7.206962876422061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization and pruning are two effective Deep Neural Networks model
compression methods. In this paper, we propose Automatic Prune Binarization
(APB), a novel compression technique combining quantization with pruning. APB
enhances the representational capability of binary networks using a few
full-precision weights. Our technique jointly maximizes the accuracy of the
network while minimizing its memory impact by deciding whether each weight
should be binarized or kept in full precision. We show how to efficiently
perform a forward pass through layers compressed using APB by decomposing it
into a binary and a sparse-dense matrix multiplication. Moreover, we design two
novel efficient algorithms for extremely quantized matrix multiplication on
CPU, leveraging highly efficient bitwise operations. The proposed algorithms
are 6.9x and 1.5x faster than available state-of-the-art solutions. We
extensively evaluate APB on two widely adopted model compression datasets,
namely CIFAR10 and ImageNet. APB delivers better accuracy/memory trade-off
compared to state-of-the-art methods based on i) quantization, ii) pruning, and
iii) combination of pruning and quantization. APB outperforms quantization in
the accuracy/efficiency trade-off, being up to 2x faster than the 2-bit
quantized model with no loss in accuracy.
- Abstract(参考訳): 量子化とプルーニングは2つの有効なディープニューラルネットワークモデル圧縮方法である。
本稿では,量子化とプルーニングを組み合わせた新しい圧縮手法であるAutomatic Prune Binarization (APB)を提案する。
APBは、数個の完全精度重みを使ってバイナリネットワークの表現能力を向上する。
この手法はネットワークの精度を最大化するとともに,各重みが2値化されるべきか,あるいは完全精度で保持すべきかを判断することで,メモリへの影響を最小化する。
APBを用いて圧縮した層を2進数とスパース距離行列乗算に分解して転送パスを効率的に行う方法を示す。
さらに,CPU上での極端に量子化された行列乗算のための2つの新しいアルゴリズムを設計する。
提案アルゴリズムは6.9倍、1.5倍高速である。
我々は、広く採用されている2つのモデル圧縮データセット、cifar10とimagenet上でapbを広範囲に評価する。
APBは最先端の手法に比べて精度/メモリトレードオフが良い
i) 量子化
pruning (複数形 prunings)
三 刈り取りと定量化の組合せ
APBは精度/効率トレードオフにおいて量子化を上回り、2ビットの量子化モデルよりも最大2倍高速で精度を損なわない。
関連論文リスト
- Quantization-free Lossy Image Compression Using Integer Matrix Factorization [8.009813033356478]
我々は、新しい量子化自由損失画像圧縮法を開発するために、整数行列分解(IMF)の変種を導入する。
IMFは、画像データの低ランク表現を、有界整数要素を持つ2つの小さな因子行列の積として提供する。
我々の手法は、JPEGを低ビットレートで0.25ビット/ピクセル(bpp)以下で連続的に上回り、高いビットレートで比較する。
論文 参考訳(メタデータ) (2024-08-22T19:08:08Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - AdaBin: Improving Binary Neural Networks with Adaptive Binary Sets [27.022212653067367]
本稿では,重みとアクティベーションを共に1ビット値に分割したBNN(Binary Neural Networks)について検討する。
最適二元集合を適応的に得るために、AdaBin と呼ばれる単純で効果的なアプローチを提案する。
ベンチマークモデルとデータセットの実験結果は、提案されたAdaBinが最先端のパフォーマンスを達成可能であることを示している。
論文 参考訳(メタデータ) (2022-08-17T05:43:33Z) - OPQ: Compressing Deep Neural Networks with One-shot Pruning-Quantization [32.60139548889592]
本稿では,新しいワンショットプルーニング量子化(OPQ)を提案する。
OPQは、事前訓練された重みパラメータのみによる圧縮割り当てを解析的に解決する。
本稿では,共通コードブックを共有するために各レイヤの全チャネルを強制する,統一的なチャネルワイド量子化手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T09:05:25Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - Dynamic Probabilistic Pruning: A general framework for
hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。
このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。
DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文 参考訳(メタデータ) (2021-05-26T17:01:52Z) - Single-path Bit Sharing for Automatic Loss-aware Model Compression [126.98903867768732]
シングルパスビット共有(SBS)は、計算コストを大幅に削減し、有望な性能を達成する。
SBS圧縮MobileNetV2は、Top-1の精度がわずか0.1%低下した22.6倍ビット演算(BOP)を実現する。
論文 参考訳(メタデータ) (2021-01-13T08:28:21Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - Differentiable Joint Pruning and Quantization for Hardware Efficiency [16.11027058505213]
DJPQは、変動情報ボトルネックに基づく構造化プルーニングと混合ビット精度量子化を1つの微分可能損失関数に組み込む。
DJPQは、複数のネットワークにおけるビット演算数(BOP)を大幅に削減し、元の浮動小数点モデルのトップ1の精度を維持していることを示す。
論文 参考訳(メタデータ) (2020-07-20T20:45:47Z) - Efficient Bitwidth Search for Practical Mixed Precision Neural Network [33.80117489791902]
ネットワーク量子化は、ディープニューラルネットワークを圧縮し加速する最も広く使われている方法の1つとなっている。
近年の研究では、異なる精度で異なる層からの重みと活性化を定量化し、全体的な性能を向上させることを提案する。
それぞれの層の重みと活性化に最適なビット幅(すなわち精度)を見つけることは困難である。
一般的なハードウェアプラットフォーム上で、異なる精度の重み付けとアクティベーションのためにどのように畳み込みを実行するかは、まだ不明である。
論文 参考訳(メタデータ) (2020-03-17T08:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。