論文の概要: MRQ:Support Multiple Quantization Schemes through Model Re-Quantization
- arxiv url: http://arxiv.org/abs/2308.01867v2
- Date: Fri, 4 Aug 2023 02:21:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 15:10:28.550915
- Title: MRQ:Support Multiple Quantization Schemes through Model Re-Quantization
- Title(参考訳): MRQ:モデル再量子化による多重量子化スキームの実現
- Authors: Manasa Manohara, Sankalp Dayal, Tariq Afzal, Rahul Bakshi, Kahkuen Fu
- Abstract要約: ディープラーニングモデルは、様々な固定ポイントハードウェアで容易に定量化できない。
モデル再量子化と呼ばれる新しいタイプのモデル量子化手法を提案する。
再量子化プロセスから得られたモデルは、Echo ShowデバイスでNNAにうまくデプロイされている。
- 参考スコア(独自算出の注目度): 0.17499351967216337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the proliferation of diverse hardware accelerators (e.g., NPU, TPU,
DPU), deploying deep learning models on edge devices with fixed-point hardware
is still challenging due to complex model quantization and conversion. Existing
model quantization frameworks like Tensorflow QAT [1], TFLite PTQ [2], and
Qualcomm AIMET [3] supports only a limited set of quantization schemes (e.g.,
only asymmetric per-tensor quantization in TF1.x QAT [4]). Accordingly, deep
learning models cannot be easily quantized for diverse fixed-point hardwares,
mainly due to slightly different quantization requirements. In this paper, we
envision a new type of model quantization approach called MRQ (model
re-quantization), which takes existing quantized models and quickly transforms
the models to meet different quantization requirements (e.g., asymmetric ->
symmetric, non-power-of-2 scale -> power-of-2 scale). Re-quantization is much
simpler than quantizing from scratch because it avoids costly re-training and
provides support for multiple quantization schemes simultaneously. To minimize
re-quantization error, we developed a new set of re-quantization algorithms
including weight correction and rounding error folding. We have demonstrated
that MobileNetV2 QAT model [7] can be quickly re-quantized into two different
quantization schemes (i.e., symmetric and symmetric+power-of-2 scale) with less
than 0.64 units of accuracy loss. We believe our work is the first to leverage
this concept of re-quantization for model quantization and models obtained from
the re-quantization process have been successfully deployed on NNA in the Echo
Show devices.
- Abstract(参考訳): 多様なハードウェアアクセラレータ(例えば、NPU、TPU、DPU)の普及にもかかわらず、固定点ハードウェアでエッジデバイスにディープラーニングモデルをデプロイすることは、複雑なモデル量子化と変換のために依然として難しい。
既存のモデル量子化フレームワークであるTensorflow QAT [1], TFLite PTQ [2], Qualcomm AIMET [3] は限定的な量子化スキームのみをサポートしている(TF1.x QAT [4] の非対称なテンソル量子化のみ)。
したがって、深層学習モデルは様々な固定点ハードウェアでは容易に量子化できない。
本稿では,既存の量子化モデルを用いて,異なる量子化要件(非対称 -> 対称,非力-of-2 スケール -> パワー-of-2 スケール)を迅速に満たすmrq (model re-quantization) と呼ばれる新しいモデル量子化手法を想定する。
再量子化は、コストのかかる再トレーニングを回避し、同時に複数の量子化スキームをサポートするため、スクラッチから量子化するよりもずっと単純である。
再定量化誤差を最小限に抑えるため,重み補正や丸め誤差折り畳みを含む新しい再定量化アルゴリズムを開発した。
我々は,mobilenetv2 qatモデル [7] を2つの異なる量子化スキーム (対称および対称+パワーof-2スケール) に高速に再計算できることを示した。
我々の研究は、この再量子化の概念をモデル量子化に活用する最初のものであると信じており、再量子化プロセスから得られたモデルはEcho Showデバイス上でNNAにうまく展開されている。
関連論文リスト
- The Quantum Imitation Game: Reverse Engineering of Quantum Machine Learning Models [2.348041867134616]
量子機械学習(QML)は、機械学習モデルと量子コンピューティングのパラダイムを融合させる。
量子コンピューティングのNoisy Intermediate-Scale Quantum(NISQ)時代における多くのサードパーティベンダーの拡大により、QMLモデルのセキュリティが最重要となる。
我々は、信頼できない量子クラウドプロバイダが、推論中にトランスパイルされたユーザ設計のトレーニングされたQMLモデルにホワイトボックスアクセスを持つ敵であると仮定する。
論文 参考訳(メタデータ) (2024-07-09T21:35:19Z) - ERQ: Error Reduction for Post-Training Quantization of Vision Transformers [48.740630807085566]
視覚変換器(ViT)のPTQ(Post-training Quantization)は,圧縮モデルの効率性から注目されている。
本稿では,活性化と重み量子化に起因する量子化誤差を逐次低減する2段階のPTQ手法であるERQを提案する。
ERQはW3A4 ViT-Sの精度を22.36%上回っている。
論文 参考訳(メタデータ) (2024-07-09T12:06:03Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - RepQuant: Towards Accurate Post-Training Quantization of Large
Transformer Models via Scale Reparameterization [8.827794405944637]
ポストトレーニング量子化(PTQ)は、大きなトランスモデルを圧縮するための有望な解である。
既存のPTQメソッドは、通常、非自明な性能損失を示す。
本稿では、量子化推論デカップリングパラダイムを備えた新しいPTQフレームワークRepQuantを提案する。
論文 参考訳(メタデータ) (2024-02-08T12:35:41Z) - A Study of Quantisation-aware Training on Time Series Transformer Models
for Resource-constrained FPGAs [19.835810073852244]
本研究では,時系列トランスフォーマーモデルにおける量子化対応トレーニング(QAT)について検討する。
そこで本研究では,QAT相における対称スキームと非対称スキームを動的に選択する適応量子化手法を提案する。
論文 参考訳(メタデータ) (2023-10-04T08:25:03Z) - Towards Neural Variational Monte Carlo That Scales Linearly with System
Size [67.09349921751341]
量子多体問題(Quantum many-body problem)は、例えば高温超伝導体のようなエキゾチックな量子現象をデミストする中心である。
量子状態を表すニューラルネットワーク(NN)と変分モンテカルロ(VMC)アルゴリズムの組み合わせは、そのような問題を解決する上で有望な方法であることが示されている。
ベクトル量子化技術を用いて,VMCアルゴリズムの局所エネルギー計算における冗長性を利用するNNアーキテクチャVector-Quantized Neural Quantum States (VQ-NQS)を提案する。
論文 参考訳(メタデータ) (2022-12-21T19:00:04Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - QFT: Post-training quantization via fast joint finetuning of all degrees
of freedom [1.1744028458220428]
我々は、すべての量子化DoFの統一的な分析に向けて、HWを意識した方法で量子化ネットワークパラメータ化を再考する。
本手法はQFT(quantization-aware finetuning)と呼ばれ,SoTAと同等の4ビット重み量子化結果が得られる。
論文 参考訳(メタデータ) (2022-12-05T22:38:58Z) - Nonuniform-to-Uniform Quantization: Towards Accurate Quantization via
Generalized Straight-Through Estimation [48.838691414561694]
非一様量子化(英: Nonuniform-to-Uniform Quantization、N2UQ)は、ハードウェアフレンドリーで効率的な非一様法の強力な表現能力を維持できる方法である。
N2UQはImageNet上で最先端の非一様量子化法を0.71.8%上回る。
論文 参考訳(メタデータ) (2021-11-29T18:59:55Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。