Fugu-MT 論文翻訳(概要): R^2: Range Regularization for Model Compression and Quantization

論文の概要: R^2: Range Regularization for Model Compression and Quantization

arxiv url: http://arxiv.org/abs/2303.08253v1
Date: Tue, 14 Mar 2023 21:59:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-16 18:24:20.187029
Title: R^2: Range Regularization for Model Compression and Quantization
Title（参考訳）: R^2: モデル圧縮と量子化のためのレンジ正規化
Authors: Arnav Kundu, Chungkuk Yoo, Srijan Mishra, Minsik Cho, Saurabh Adya
Abstract要約: 本稿では,L-inf正則化,拡張マージン正則化,ソフトミンマックス正則化を導入する。我々は、R2がMobileNetV1のようなパラメータ制約モデルに役立つことを実証し、2ビット量子化では8%、1ビット圧縮では7%の大幅な改善を実現した。
参考スコア（独自算出の注目度）: 6.599050496970531
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Model parameter regularization is a widely used technique to improve generalization, but also can be used to shape the weight distributions for various purposes. In this work, we shed light on how weight regularization can assist model quantization and compression techniques, and then propose range regularization (R^2) to further boost the quality of model optimization by focusing on the outlier prevention. By effectively regulating the minimum and maximum weight values from a distribution, we mold the overall distribution into a tight shape so that model compression and quantization techniques can better utilize their limited numeric representation powers. We introduce L-inf regularization, its extension margin regularization and a new soft-min-max regularization to be used as a regularization loss during full-precision model training. Coupled with state-of-the-art quantization and compression techniques, models trained with R^2 perform better on an average, specifically at lower bit weights with 16x compression ratio. We also demonstrate that R^2 helps parameter constrained models like MobileNetV1 achieve significant improvement of around 8% for 2 bit quantization and 7% for 1 bit compression.
Abstract（参考訳）: モデルパラメータの正規化は一般化を改善するために広く使われる手法であるが、様々な目的のために重量分布を形作るのにも用いられる。そこで本研究では,モデル量子化と圧縮技術に重み正規化が有効であることを示すとともに,外乱防止に着目してモデル最適化の品質をさらに向上する範囲正規化(R^2)を提案する。分布から最小および最大重量値を効果的に制御することにより、モデル圧縮および量子化技術が制限された数値表現力を有効活用できるように、全体分布をタイトな形状に成形する。 l-inf正則化,拡張マージン正則化,および全精度モデルトレーニングにおける正則化損失として使用される新しいソフトミン正則化を導入する。最先端の量子化と圧縮技術と組み合わせて、R^2で訓練されたモデルは平均で、特に16倍圧縮比の低ビット重みでより良く動作する。また、R^2はMobileNetV1のようなパラメータ制約付きモデルに役立ち、2ビット量子化では8%、1ビット圧縮では7%の大幅な改善を実現している。

関連論文リスト

SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
論文参考訳（メタデータ） (2024-11-07T18:59:58Z)
SLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression [7.6131620435684875]
SLIMは新しいワンショット圧縮フレームワークで、ハードウェアフレンドリーな量子化、スパーシティ、低ランク近似を統合する。 SLIMはモデル精度を最大5.66%(LLaMA-2-7B)に改善し、4ビットの重み量子化で2:4の間隔で計算し、従来の手法より優れている。また,小調整なしでSLIMと比較して,最大1.66%(LLaMA-2-13B)の精度向上を図ったPEFTレシピを提案する。
論文参考訳（メタデータ） (2024-10-12T18:36:07Z)
2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文参考訳（メタデータ） (2024-06-10T06:06:11Z)
Dynamic Dual Trainable Bounds for Ultra-low Precision Super-Resolution Networks [82.18396309806577]
動的デュアル・トレーニング・バウンダリ(DDTB)と呼ばれる新しいアクティベーション・量子化器を提案する。 DDTBは超低精度で優れた性能を示した。例えば、我々のDDTBは、EDSRを2ビットに量子化し、出力画像をx4にスケールアップする場合、Urban100ベンチマークで0.70dBのPSNRアップを達成する。
論文参考訳（メタデータ） (2022-03-08T04:26:18Z)
Pruning Ternary Quantization [32.32812780843498]
推測時間、モデルサイズ、精度は、ディープモデル圧縮の3つの重要な要素である。単純で効果的で対称な三項量子化法であるプルーニング三項量子化(PTQ)を提案する。本手法は,異なるネットワーク構造を持つ画像分類,物体検出・分離タスクについて検証する。
論文参考訳（メタデータ） (2021-07-23T02:18:00Z)
Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。 52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文参考訳（メタデータ） (2021-05-24T12:07:38Z)
Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。全精度ベースラインモデルと比較すると,wrの変化は無視できる。 Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文参考訳（メタデータ） (2021-03-31T06:05:40Z)
Learnable Companding Quantization for Accurate Low-bit Neural Networks [3.655021726150368]
ディープニューラルネットワークの量子化は、メモリ消費の削減と推論速度の向上に有効な方法である。非常に低ビットモデルがフル精度モデルに匹敵する精度を達成することは、まだ困難です。 2,3,4ビットモデルのための新しい非一様量子化手法として学習可能なコンパイル量子化(LCQ)を提案する。
論文参考訳（メタデータ） (2021-03-12T09:06:52Z)
PAMS: Quantized Super-Resolution via Parameterized Max Scale [84.55675222525608]
深部畳み込みニューラルネットワーク(DCNN)は超解像処理(SR)において優位な性能を示した本稿では,PAMS(Parameterized Max Scale)と呼ばれる新しい量子化手法を提案する。実験により,提案手法はEDSRやRDNなどの既存のSRモデルを適切に圧縮・高速化できることが示された。
論文参考訳（メタデータ） (2020-11-09T06:16:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。