論文の概要: Differentiable Model Compression via Pseudo Quantization Noise
- arxiv url: http://arxiv.org/abs/2104.09987v1
- Date: Tue, 20 Apr 2021 14:14:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 13:55:33.535317
- Title: Differentiable Model Compression via Pseudo Quantization Noise
- Title(参考訳): 擬似量子化雑音による微分モデル圧縮
- Authors: Alexandre D\'efossez, Yossi Adi, Gabriel Synnaeve
- Abstract要約: 本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。
本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
- 参考スコア(独自算出の注目度): 99.89011673907814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to add independent pseudo quantization noise to model parameters
during training to approximate the effect of a quantization operator. This
method, DiffQ, is differentiable both with respect to the unquantized
parameters, and the number of bits used. Given a single hyper-parameter
expressing the desired balance between the quantized model size and accuracy,
DiffQ can optimize the number of bits used per individual weight or groups of
weights, in a single training. We experimentally verify that our method
outperforms state-of-the-art quantization techniques on several benchmarks and
architectures for image classification, language modeling, and audio source
separation. For instance, on the Wikitext-103 language modeling benchmark,
DiffQ compresses a 16 layers transformer model by a factor of 8, equivalent to
4 bits precision, while losing only 0.5 points of perplexity. Code is available
at: https://github.com/facebookresearch/diffq
- Abstract(参考訳): 本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。
この方法であるDiffQは、未定量化パラメータと使用するビット数の両方について微分可能である。
量子化モデルのサイズと精度のバランスを所望する1つのハイパーパラメータが与えられた場合、DiffQは1つのトレーニングで個々の重みまたは重みのグループごとに使用されるビット数を最適化することができる。
本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
例えば、wikitext-103言語モデリングベンチマークでは、diffqは16層トランスフォーマーモデルを4ビット精度に相当する8倍圧縮し、0.5ポイントのパープレキシティを失う。
https://github.com/facebookresearch/diffq
関連論文リスト
- Low-Bitwidth Floating Point Quantization for Efficient High-Quality Diffusion Models [2.926259075657424]
拡散モデルは、ディープニューラルネットワークを用いてランダムガウスノイズを反復的にデノベートすることで画像を生成する。
近年の研究では、拡散モデルに対する低ビット幅(例:8ビットまたは4ビット)の量子化が提案されているが、4ビットの整数量子化は典型的には低画質の画像をもたらす。
本稿では,整数量子化法と比較して画像品質がよい拡散モデルのための効果的な浮動小数点量子化法を提案する。
論文 参考訳(メタデータ) (2024-08-13T15:56:20Z) - FrameQuant: Flexible Low-Bit Quantization for Transformers [25.569106620123346]
トランスフォーマーは多くのビジョンと自然言語処理タスクのための強力な基盤モデルのバックボーンです。
ポストトライニング量子化は、事前トレーニングされたモデルを変更し、それを8ビット以下に量子化する。
様々な実験を通して、トランスフォーマーモデルに対する(ほとんど)2ビット量子化は、大きな効率向上を約束することを示す。
論文 参考訳(メタデータ) (2024-03-10T04:01:49Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - One Model for All Quantization: A Quantized Network Supporting Hot-Swap
Bit-Width Adjustment [36.75157407486302]
多様なビット幅をサポートする全量子化のためのモデルを訓練する手法を提案する。
重みの多様性を高めるためにウェーブレット分解と再構成を用いる。
同じ精度で訓練された専用モデルに匹敵する精度が得られる。
論文 参考訳(メタデータ) (2021-05-04T08:10:50Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。