論文の概要: VecQ: Minimal Loss DNN Model Compression With Vectorized Weight
Quantization
- arxiv url: http://arxiv.org/abs/2005.08501v2
- Date: Wed, 10 Jun 2020 07:09:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 23:48:10.395948
- Title: VecQ: Minimal Loss DNN Model Compression With Vectorized Weight
Quantization
- Title(参考訳): VecQ: ベクトル化重み量子化による最小損失DNNモデル圧縮
- Authors: Cheng Gong, Yao Chen, Ye Lu, Tao Li, Cong Hao, Deming Chen
- Abstract要約: 我々は、最小の直接量子化損失とモデル精度を保証できるVecQと呼ばれる新しい量子化ソリューションを開発した。
また,学習中に提案した量子化過程を高速化するために,パラメータ化推定と確率ベース計算を用いて量子化過程を高速化する。
- 参考スコア(独自算出の注目度): 19.66522714831141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization has been proven to be an effective method for reducing the
computing and/or storage cost of DNNs. However, the trade-off between the
quantization bitwidth and final accuracy is complex and non-convex, which makes
it difficult to be optimized directly. Minimizing direct quantization loss
(DQL) of the coefficient data is an effective local optimization method, but
previous works often neglect the accurate control of the DQL, resulting in a
higher loss of the final DNN model accuracy. In this paper, we propose a novel
metric called Vector Loss. Based on this new metric, we develop a new
quantization solution called VecQ, which can guarantee minimal direct
quantization loss and better model accuracy. In addition, in order to speed up
the proposed quantization process during model training, we accelerate the
quantization process with a parameterized probability estimation method and
template-based derivation calculation. We evaluate our proposed algorithm on
MNIST, CIFAR, ImageNet, IMDB movie review and THUCNews text data sets with
numerical DNN models. The results demonstrate that our proposed quantization
solution is more accurate and effective than the state-of-the-art approaches
yet with more flexible bitwidth support. Moreover, the evaluation of our
quantized models on Saliency Object Detection (SOD) tasks maintains comparable
feature extraction quality with up to 16$\times$ weight size reduction.
- Abstract(参考訳): 量子化はDNNの計算および/またはストレージコストを削減する効果的な方法であることが証明されている。
しかし、量子化ビット幅と最終的な精度のトレードオフは複雑で非凸であり、直接最適化することは困難である。
係数データの直接量子化損失(DQL)を最小化することは効果的な局所最適化法であるが、以前の研究ではDQLの正確な制御を無視することが多く、最終的なDNNモデルの精度が低下する。
本稿ではベクトル損失と呼ばれる新しい計量を提案する。
この新たな指標に基づいて、最小の直接量子化損失とモデル精度を保証できるVecQと呼ばれる新しい量子化ソリューションを開発した。
さらに, モデル学習中に提案する量子化プロセスを高速化するために, パラメータ化確率推定法とテンプレートに基づく導出計算を用いて量子化プロセスを高速化する。
提案アルゴリズムは,MNIST, CIFAR, ImageNet, IMDB 映画レビュー, THUCNews テキストデータセットを数値DNNモデルで評価する。
その結果,提案した量子化解は最先端の手法よりも正確かつ効果的であり,より柔軟なビット幅支援が可能であることが示された。
さらに、Saliency Object Detection (SOD)タスクにおける量子化モデルの評価では、最大16$\times$weight size reductionという特徴抽出品質を維持している。
関連論文リスト
- RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [95.32315448601241]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Q-VLM: Post-training Quantization for Large Vision-Language Models [73.19871905102545]
本稿では,大規模視覚言語モデル(LVLM)の学習後量子化フレームワークを提案する。
視覚言語モデル全体の離散化誤差に大きな影響を及ぼす層間依存関係を抽出し、この依存関係を最適な量子化戦略に組み込む。
実験の結果,提案手法はメモリを2.78倍圧縮し,出力速度を約13B LLaVAモデルで1.44倍向上させることができた。
論文 参考訳(メタデータ) (2024-10-10T17:02:48Z) - MixQuant: Mixed Precision Quantization with a Bit-width Optimization
Search [7.564770908909927]
量子化は、効率的なディープニューラルネットワーク(DNN)を作成する技術である
ラウンドオフ誤差に基づいて各層重みに対する最適な量子化ビット幅を求める検索アルゴリズムであるMixQuantを提案する。
我々は、MixQuantと最先端の量子化手法BRECQを組み合わせることで、BRECQ単独よりも優れた量子化モデル精度が得られることを示す。
論文 参考訳(メタデータ) (2023-09-29T15:49:54Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Augmenting Hessians with Inter-Layer Dependencies for Mixed-Precision
Post-Training Quantization [7.392278887917975]
本稿では,ネットワーク上のテンソルに異なる数値精度を割り当てる混合精度ポストトレーニング量子化手法を提案する。
実験では,16ビットベースラインの25.48%$,21.69%$,33.28%$に対して,レイテンシの低減を実証した。
論文 参考訳(メタデータ) (2023-06-08T02:18:58Z) - AMED: Automatic Mixed-Precision Quantization for Edge Devices [3.5223695602582614]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
論文 参考訳(メタデータ) (2022-05-30T21:23:22Z) - A Comprehensive Survey on Model Quantization for Deep Neural Networks in
Image Classification [0.0]
有望なアプローチは量子化であり、完全な精度の値は低ビット幅の精度で保存される。
本稿では、画像分類に焦点をあてて、量子化の概念と方法に関する包括的調査を行う。
本稿では,量子化DNNにおける浮動小数点演算の低コストなビット演算への置き換えと,量子化における異なる層の感度について説明する。
論文 参考訳(メタデータ) (2022-05-14T15:08:32Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - AUSN: Approximately Uniform Quantization by Adaptively Superimposing
Non-uniform Distribution for Deep Neural Networks [0.7378164273177589]
既存の一様および非一様量子化法は、表現範囲と表現解像度の間に固有の矛盾を示す。
重みとアクティベーションを定量化する新しい量子化法を提案する。
鍵となる考え方は、複数の非一様量子化値、すなわち AUSN を適応的に重ね合わせることで、ユニフォーム量子化を近似することである。
論文 参考訳(メタデータ) (2020-07-08T05:10:53Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。