論文の概要: R2 Loss: Range Restriction Loss for Model Compression and Quantization
- arxiv url: http://arxiv.org/abs/2303.08253v2
- Date: Sun, 11 Feb 2024 19:04:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 01:18:50.523896
- Title: R2 Loss: Range Restriction Loss for Model Compression and Quantization
- Title(参考訳): R2損失:モデル圧縮と量子化のための範囲制限損失
- Authors: Arnav Kundu, Chungkuk Yoo, Srijan Mishra, Minsik Cho, Saurabh Adya
- Abstract要約: 本稿では,事前学習中に重みから外れ値を取り除き,低ビット量子化と圧縮親和性モデルを構築するための範囲制限損失(R2-Loss)を提案する。
R2-Lossは、最先端のポストトレーニング量子化(PTQ)、量子化対応トレーニング(QAT)、モデル圧縮技術により、低ビット量子化精度を向上させる。
- 参考スコア(独自算出の注目度): 6.218599842159466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model quantization and compression is widely used techniques to reduce usage
of computing resource at inference time. While state-of-the-art works have been
achieved reasonable accuracy with higher bit such as 4bit or 8bit, but still it
is challenging to quantize/compress a model further, e.g., 1bit or 2bit. To
overcome the challenge, we focus on outliers in weights of a pre-trained model
which disrupt effective lower bit quantization and compression. In this work,
we propose Range Restriction Loss (R2-Loss) for building lower bit quantization
and compression friendly models by removing outliers from weights during
pre-training. By effectively restricting range of weights, we mold the overall
distribution into a tight shape to ensure high quantization bit resolution,
therefore allowing model compression and quantization techniques can to utilize
their limited numeric representation powers better. We introduce three
different, L-inf R2-Loss, its extension Margin R2-Loss and a new
Soft-Min-MaxR2-Loss to be used as an auxiliary loss during full-precision model
training. These R2-Loss can be used in different cases such as L-inf and Margin
R2-Loss would be effective for symmetric quantization, while Soft-Min-Max
R2-Loss shows better performance for model compression. In our experiment,
R2-Loss improves lower bit quantization accuracy with state-of-the-art
post-training quantization (PTQ), quantization-aware training (QAT), and model
compression techniques. With R2-Loss, MobileNet-V2 2bit weight and 8bit
activation PTQ, MobileNet-V1 2bit weight and activation QAT, ResNet18 1bit
weight compression are improved to 59.49% from 50.66%, 59.05% from 55.96%, and
52.58% from 45.54%, respectively.
- Abstract(参考訳): モデル量子化と圧縮は、推論時の計算資源の使用を減らすために広く使われている。
最先端の作品は、4ビットや8ビットといった高いビットで妥当な精度を実現しているが、それでも1ビットや2ビットといったモデルの量子化や圧縮は難しい。
この課題を克服するために、我々は、効果的な低ビット量子化と圧縮を阻害する事前学習モデルの重みの異常に焦点をあてる。
本研究では,事前学習中に重みから外れ値を取り除き,低ビット量子化と圧縮親和性モデルを構築するための範囲制限損失(R2-Loss)を提案する。
重みの範囲を効果的に制限することにより、全体の分布をタイトな形状に成形し、高い量子化ビット解像度を確保することにより、モデル圧縮と量子化技術により、制限された数値表現力をより有効に利用することができる。
我々は,3種類のL-inf R2-Loss,拡張Margin R2-Loss,Soft-Min-MaxR2-Lossを導入し,完全精度モデルのトレーニングにおいて補助的損失として使用する。
これらのR2-Lossは、L-inf や Margin R2-Loss のような異なるケースで使用できるが、Soft-Min-Max R2-Loss はモデル圧縮により良い性能を示す。
r2-lossは,ptq(state-of-the-art post-training quantization),qat(quantization-aware training),モデル圧縮技術を用いて,低ビット量子化精度を向上させる。
r2-loss、mobilenet-v2 2bit weight、8bit activation ptq、mobilenet-v1 2bit weight and activation qatにより、resnet18 1bit weight compressionは50.66%から59.49%、55.96%から59.05%、45.54%から52.58%に改善されている。
関連論文リスト
- SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。
これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。
本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - Dynamic Dual Trainable Bounds for Ultra-low Precision Super-Resolution
Networks [82.18396309806577]
動的デュアル・トレーニング・バウンダリ(DDTB)と呼ばれる新しいアクティベーション・量子化器を提案する。
DDTBは超低精度で優れた性能を示した。
例えば、我々のDDTBは、EDSRを2ビットに量子化し、出力画像をx4にスケールアップする場合、Urban100ベンチマークで0.70dBのPSNRアップを達成する。
論文 参考訳(メタデータ) (2022-03-08T04:26:18Z) - Pruning Ternary Quantization [32.32812780843498]
推測時間、モデルサイズ、精度は、ディープモデル圧縮の3つの重要な要素である。
単純で効果的で対称な三項量子化法であるプルーニング三項量子化(PTQ)を提案する。
本手法は,異なるネットワーク構造を持つ画像分類,物体検出・分離タスクについて検証する。
論文 参考訳(メタデータ) (2021-07-23T02:18:00Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - Learnable Companding Quantization for Accurate Low-bit Neural Networks [3.655021726150368]
ディープニューラルネットワークの量子化は、メモリ消費の削減と推論速度の向上に有効な方法である。
非常に低ビットモデルがフル精度モデルに匹敵する精度を達成することは、まだ困難です。
2,3,4ビットモデルのための新しい非一様量子化手法として学習可能なコンパイル量子化(LCQ)を提案する。
論文 参考訳(メタデータ) (2021-03-12T09:06:52Z) - PAMS: Quantized Super-Resolution via Parameterized Max Scale [84.55675222525608]
深部畳み込みニューラルネットワーク(DCNN)は超解像処理(SR)において優位な性能を示した
本稿では,PAMS(Parameterized Max Scale)と呼ばれる新しい量子化手法を提案する。
実験により,提案手法はEDSRやRDNなどの既存のSRモデルを適切に圧縮・高速化できることが示された。
論文 参考訳(メタデータ) (2020-11-09T06:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。