論文の概要: R^2: Range Regularization for Model Compression and Quantization
- arxiv url: http://arxiv.org/abs/2303.08253v1
- Date: Tue, 14 Mar 2023 21:59:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 18:24:20.187029
- Title: R^2: Range Regularization for Model Compression and Quantization
- Title(参考訳): R^2: モデル圧縮と量子化のためのレンジ正規化
- Authors: Arnav Kundu, Chungkuk Yoo, Srijan Mishra, Minsik Cho, Saurabh Adya
- Abstract要約: 本稿では,L-inf正則化,拡張マージン正則化,ソフトミンマックス正則化を導入する。
我々は、R2がMobileNetV1のようなパラメータ制約モデルに役立つことを実証し、2ビット量子化では8%、1ビット圧縮では7%の大幅な改善を実現した。
- 参考スコア(独自算出の注目度): 6.599050496970531
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model parameter regularization is a widely used technique to improve
generalization, but also can be used to shape the weight distributions for
various purposes. In this work, we shed light on how weight regularization can
assist model quantization and compression techniques, and then propose range
regularization (R^2) to further boost the quality of model optimization by
focusing on the outlier prevention. By effectively regulating the minimum and
maximum weight values from a distribution, we mold the overall distribution
into a tight shape so that model compression and quantization techniques can
better utilize their limited numeric representation powers. We introduce L-inf
regularization, its extension margin regularization and a new soft-min-max
regularization to be used as a regularization loss during full-precision model
training. Coupled with state-of-the-art quantization and compression
techniques, models trained with R^2 perform better on an average, specifically
at lower bit weights with 16x compression ratio. We also demonstrate that R^2
helps parameter constrained models like MobileNetV1 achieve significant
improvement of around 8% for 2 bit quantization and 7% for 1 bit compression.
- Abstract(参考訳): モデルパラメータの正規化は一般化を改善するために広く使われる手法であるが、様々な目的のために重量分布を形作るのにも用いられる。
そこで本研究では,モデル量子化と圧縮技術に重み正規化が有効であることを示すとともに,外乱防止に着目してモデル最適化の品質をさらに向上する範囲正規化(R^2)を提案する。
分布から最小および最大重量値を効果的に制御することにより、モデル圧縮および量子化技術が制限された数値表現力を有効活用できるように、全体分布をタイトな形状に成形する。
l-inf正則化,拡張マージン正則化,および全精度モデルトレーニングにおける正則化損失として使用される新しいソフトミン正則化を導入する。
最先端の量子化と圧縮技術と組み合わせて、R^2で訓練されたモデルは平均で、特に16倍圧縮比の低ビット重みでより良く動作する。
また、R^2はMobileNetV1のようなパラメータ制約付きモデルに役立ち、2ビット量子化では8%、1ビット圧縮では7%の大幅な改善を実現している。
関連論文リスト
- SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Deep learning model compression using network sensitivity and gradients [3.52359746858894]
非リトレーニング条件とリトレーニング条件の両方に対するモデル圧縮アルゴリズムを提案する。
まず,ネットワークパラメータの感度を用いた深層学習モデルの圧縮のためのBin & Quantアルゴリズムを提案する。
第2のケースでは、新しい勾配重み付きk平均クラスタリングアルゴリズム(GWK)を提案する。
論文 参考訳(メタデータ) (2022-10-11T03:02:40Z) - Dynamic Dual Trainable Bounds for Ultra-low Precision Super-Resolution
Networks [82.18396309806577]
動的デュアル・トレーニング・バウンダリ(DDTB)と呼ばれる新しいアクティベーション・量子化器を提案する。
DDTBは超低精度で優れた性能を示した。
例えば、我々のDDTBは、EDSRを2ビットに量子化し、出力画像をx4にスケールアップする場合、Urban100ベンチマークで0.70dBのPSNRアップを達成する。
論文 参考訳(メタデータ) (2022-03-08T04:26:18Z) - Pruning Ternary Quantization [32.32812780843498]
推測時間、モデルサイズ、精度は、ディープモデル圧縮の3つの重要な要素である。
単純で効果的で対称な三項量子化法であるプルーニング三項量子化(PTQ)を提案する。
本手法は,異なるネットワーク構造を持つ画像分類,物体検出・分離タスクについて検証する。
論文 参考訳(メタデータ) (2021-07-23T02:18:00Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - Learnable Companding Quantization for Accurate Low-bit Neural Networks [3.655021726150368]
ディープニューラルネットワークの量子化は、メモリ消費の削減と推論速度の向上に有効な方法である。
非常に低ビットモデルがフル精度モデルに匹敵する精度を達成することは、まだ困難です。
2,3,4ビットモデルのための新しい非一様量子化手法として学習可能なコンパイル量子化(LCQ)を提案する。
論文 参考訳(メタデータ) (2021-03-12T09:06:52Z) - PAMS: Quantized Super-Resolution via Parameterized Max Scale [84.55675222525608]
深部畳み込みニューラルネットワーク(DCNN)は超解像処理(SR)において優位な性能を示した
本稿では,PAMS(Parameterized Max Scale)と呼ばれる新しい量子化手法を提案する。
実験により,提案手法はEDSRやRDNなどの既存のSRモデルを適切に圧縮・高速化できることが示された。
論文 参考訳(メタデータ) (2020-11-09T06:16:05Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。