論文の概要: NestQuant: Post-Training Integer-Nesting Quantization for On-Device DNN
- arxiv url: http://arxiv.org/abs/2506.17870v1
- Date: Sun, 22 Jun 2025 01:53:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.626018
- Title: NestQuant: Post-Training Integer-Nesting Quantization for On-Device DNN
- Title(参考訳): NestQuant: オンデバイスDNNのためのトレーニング後の整数-Nesting量子化
- Authors: Jianhang Xie, Chuntao Ding, Xiaqing Li, Shenyuan Ren, Yidong Li, Zhichao Lu,
- Abstract要約: 本稿では、IoTデバイス上でのオンデバイス量子化モデルスイッチングのためのリソースフレンドリな整数ネスト量子化(NestQuant)を提案する。
提案したNestQuantは、整数データ型の高ビットおよび低ビットの重みに量子化重みをビット単位で分割する整数重み分解を組み込んでいる。
デプロイメントでは、1つのNestQuantモデルのみを送信、保存し、ロービット重みをpaging/outすることで、フルビット/パートビットモデルの切り替えを行うことができます。
- 参考スコア(独自算出の注目度): 16.6677972645018
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deploying quantized deep neural network (DNN) models with resource adaptation capabilities on ubiquitous Internet of Things (IoT) devices to provide high-quality AI services can leverage the benefits of compression and meet multi-scenario resource requirements. However, existing dynamic/mixed precision quantization requires retraining or special hardware, whereas post-training quantization (PTQ) has two limitations for resource adaptation: (i) The state-of-the-art PTQ methods only provide one fixed bitwidth model, which makes it challenging to adapt to the dynamic resources of IoT devices; (ii) Deploying multiple PTQ models with diverse bitwidths consumes large storage resources and switching overheads. To this end, this paper introduces a resource-friendly post-training integer-nesting quantization, i.e., NestQuant, for on-device quantized model switching on IoT devices. The proposed NestQuant incorporates the integer weight decomposition, which bit-wise splits quantized weights into higher-bit and lower-bit weights of integer data types. It also contains a decomposed weights nesting mechanism to optimize the higher-bit weights by adaptive rounding and nest them into the original quantized weights. In deployment, we can send and store only one NestQuant model and switch between the full-bit/part-bit model by paging in/out lower-bit weights to adapt to resource changes and reduce consumption. Experimental results on the ImageNet-1K pretrained DNNs demonstrated that the NestQuant model can achieve high performance in top-1 accuracy, and reduce in terms of data transmission, storage consumption, and switching overheads. In particular, the ResNet-101 with INT8 nesting INT6 can achieve 78.1% and 77.9% accuracy for full-bit and part-bit models, respectively, and reduce switching overheads by approximately 78.1% compared with diverse bitwidths PTQ models.
- Abstract(参考訳): 高品質なAIサービスを提供するために、ユビキタスモノのインターネット(IoT)デバイスにリソース適応機能を備えた量子化ディープニューラルネットワーク(DNN)モデルをデプロイすることで、圧縮のメリットを活用し、マルチシナリオリソース要件を満たすことが可能になる。
しかし、既存の動的/混合精密量子化は再トレーニングや特別なハードウェアを必要とするのに対し、後トレーニング量子化(PTQ)はリソース適応に2つの制限がある。
(i)最先端のPTQメソッドは1つの固定ビット幅モデルのみを提供しており、IoTデバイスの動的リソースへの適応が困難である。
(ii) 様々なビット幅で複数のPTQモデルをデプロイすると、大きなストレージリソースが消費され、オーバーヘッドが切り替わる。
そこで本研究では,IoTデバイス上でのオンデバイス量子化モデルスイッチングにNestQuantという,リソースフレンドリな整数ネスティング量子化を導入する。
提案したNestQuantは、整数データ型の高ビットおよび低ビットの重みに量子化重みをビット単位で分割する整数重み分解を組み込んでいる。
また、分解された重みのネスト機構を含み、適応的な丸めによって高ビットの重みを最適化し、元の量子化重みにネストする。
デプロイでは、NestQuantモデル1つだけを送信、保存し、リソースの変更に適応し、消費を減らすために、イン/アウトロービットウェイトをペイジすることで、フルビット/パートビットモデルの切り替えを行うことができます。
ImageNet-1KプレトレーニングDNNの実験結果から、NestQuantモデルは、トップ1の精度で高い性能を達成でき、データ転送、ストレージ消費、オーバーヘッドの切り換えの点で低減できることが示された。
特にINT8ネストINT6を搭載したResNet-101はフルビットモデルとパートビットモデルでそれぞれ78.1%と77.9%の精度を実現し、様々なビット幅のPTQモデルと比較してスイッチングオーバーヘッドを約78.1%削減できる。
関連論文リスト
- RTF-Q: Efficient Unsupervised Domain Adaptation with Retraining-free Quantization [14.447148108341688]
ReTraining-Free Quantization (RTF-Q) を用いた効率的な非教師なし領域適応法を提案する。
提案手法では,計算コストの異なる低精度量子化アーキテクチャを用い,動的予算を持つデバイスに適用する。
提案するネットワークは,3つのベンチマークにおける最先端手法との競合精度を実証する。
論文 参考訳(メタデータ) (2024-08-11T11:53:29Z) - EQ-Net: Elastic Quantization Neural Networks [15.289359357583079]
Elastic Quantization Neural Networks (EQ-Net) は、堅牢な重み共有量子化スーパーネットのトレーニングを目的としている。
本稿では, 様々な主要な量形式に対応するために, 弾性量子化空間(弾性ビット幅, 粒度, 対称性を含む)を提案する。
遺伝的アルゴリズムと,提案した条件量子化対応条件精度予測器(CQAP)を推定器として組み込んで,混合精度量子ニューラルネットワークを高速に探索する。
論文 参考訳(メタデータ) (2023-08-15T08:57:03Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - OPQ: Compressing Deep Neural Networks with One-shot Pruning-Quantization [32.60139548889592]
本稿では,新しいワンショットプルーニング量子化(OPQ)を提案する。
OPQは、事前訓練された重みパラメータのみによる圧縮割り当てを解析的に解決する。
本稿では,共通コードブックを共有するために各レイヤの全チャネルを強制する,統一的なチャネルワイド量子化手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T09:05:25Z) - Power-of-Two Quantization for Low Bitwidth and Hardware Compliant Neural
Networks [1.398698203665363]
本稿では,低ビット精度を利用する非線形量子化手法について検討する。
我々は,低ビット幅のPower-of-Two(PoT)ネットワークのトレーニングを可能にするQATアルゴリズムを開発した。
同時に、PoT量子化はニューラルネットワークの計算複雑性を大幅に減らす。
論文 参考訳(メタデータ) (2022-03-09T19:57:14Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文 参考訳(メタデータ) (2020-08-12T06:09:58Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。