論文の概要: DQT: Dynamic Quantization Training via Dequantization-Free Nested Integer Arithmetic
- arxiv url: http://arxiv.org/abs/2508.09176v1
- Date: Thu, 07 Aug 2025 07:31:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.580324
- Title: DQT: Dynamic Quantization Training via Dequantization-Free Nested Integer Arithmetic
- Title(参考訳): DQT: Dequantization-free Nested Integer Arithmeticによる動的量子化トレーニング
- Authors: Hazem Hesham Yousef Shalby, Fabrizio Pittorino, Francesca Palermo, Diana Trojaniello, Manuel Roveri,
- Abstract要約: 本稿では,このボトルネックを取り除く新しいフレームワークである動的量子化トレーニング(DQT)を紹介する。
DQTの中核はネストされた整数表現であり、低い精度の値は高い精度のものにビット単位で埋め込まれている。
これによりDQTは、バックボーンネットワークの量子化のない静的混合精度の両方を可能にする最初の量子化フレームワークとなる。
- 参考スコア(独自算出の注目度): 4.184808780116726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The deployment of deep neural networks on resource-constrained devices relies on quantization. While static, uniform quantization applies a fixed bit-width to all inputs, it fails to adapt to their varying complexity. Dynamic, instance-based mixed-precision quantization promises a superior accuracy-efficiency trade-off by allocating higher precision only when needed. However, a critical bottleneck remains: existing methods require a costly dequantize-to-float and requantize-to-integer cycle to change precision, breaking the integer-only hardware paradigm and compromising performance gains. This paper introduces Dynamic Quantization Training (DQT), a novel framework that removes this bottleneck. At the core of DQT is a nested integer representation where lower-precision values are bit-wise embedded within higher-precision ones. This design, coupled with custom integer-only arithmetic, allows for on-the-fly bit-width switching through a near-zero-cost bit-shift operation. This makes DQT the first quantization framework to enable both dequantization-free static mixed-precision of the backbone network, and truly efficient dynamic, instance-based quantization through a lightweight controller that decides at runtime how to quantize each layer. We demonstrate DQT state-of-the-art performance on ResNet18 on CIFAR-10 and ResNet50 on ImageNet. On ImageNet, our 4-bit dynamic ResNet50 achieves 77.00% top-1 accuracy, an improvement over leading static (LSQ, 76.70%) and dynamic (DQNET, 76.94%) methods at a comparable BitOPs budget. Crucially, DQT achieves this with a bit-width transition cost of only 28.3M simple bit-shift operations, a drastic improvement over the 56.6M costly Multiply-Accumulate (MAC) floating-point operations required by previous dynamic approaches - unlocking a new frontier in efficient, adaptive AI.
- Abstract(参考訳): リソース制約のあるデバイスへのディープニューラルネットワークのデプロイは、量子化に依存している。
静的で均一な量子化は全ての入力に固定ビット幅を適用するが、その複雑さに適応できない。
動的でインスタンスベースの混合精度量子化は、必要に応じて高い精度を割り当てることによって、より優れた精度効率トレードオフを約束する。
しかし、重要なボトルネックが残っている: 既存の手法では、精度を変え、整数のみのハードウェアパラダイムを破り、性能向上を妥協するために、コストのかかるdequantize-to-floatとrequantize-to-integerサイクルを必要とする。
本稿では,このボトルネックを取り除く新しいフレームワークである動的量子化トレーニング(DQT)を紹介する。
DQTの中核はネストされた整数表現であり、低い精度の値は高い精度のものにビット単位で埋め込まれている。
この設計は、カスタム整数専用演算と組み合わせて、ほぼゼロコストのビットシフト操作を通じてオンザフライビット幅切り替えを可能にする。
これにより、DQTは、バックボーンネットワークの量子化のない静的混合精度と、各レイヤの量子化方法をランタイムで決定する軽量コントローラによる真に効率的な動的インスタンスベースの量子化の両方を可能にする、最初の量子化フレームワークになります。
我々は、CIFAR-10上のResNet18およびImageNet上のResNet50におけるDQTの現状を実証する。
ImageNetでは、4ビットの動的ResNet50が77.00%のトップ1の精度、リード静的(LSQ, 76.70%)および動的(DQNET, 76.94%)メソッドを同等のBitOPs予算で改善しました。
重要なことに、DQTは28.3Mの単純なビットシフト操作のみのビット幅移行コストでこれを達成し、従来の動的アプローチで要求されていた56.6MのMultiply-Accumulate (MAC)浮動小数点演算を大幅に改善した。
関連論文リスト
- AdaQAT: Adaptive Bit-Width Quantization-Aware Training [0.873811641236639]
大規模ディープニューラルネットワーク(DNN)は多くのアプリケーションシナリオで大きな成功を収めています。
モデル量子化は、デプロイメントの制約に対処する一般的なアプローチであるが、最適化されたビット幅の探索は困難である。
AdaQAT(Adaptive Bit-Width Quantization Aware Training)は,学習中のビット幅を自動的に最適化し,より効率的な推論を行う学習手法である。
論文 参考訳(メタデータ) (2024-04-22T09:23:56Z) - COMQ: A Backpropagation-Free Algorithm for Post-Training Quantization [8.214857267270807]
ポストトレーニング量子化(PTQ)は、大規模なニューラルネットワークを圧縮するための実践的なアプローチとして登場した。
本稿では,階層的再構成誤りの座標最小化を逐次行う,COMQと呼ばれる革新的なPTQアルゴリズムを提案する。
COMQは、4ビットビジョン変換器を量子化し、Top-1の精度で1%未満の損失を負う。
論文 参考訳(メタデータ) (2024-03-11T20:04:03Z) - FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization Search [50.07268323597872]
本稿では,整数浮動小数点モデルと低精度浮動小数点モデルの両方において再学習を不要とする,最初のワンショット混合量子化探索を提案する。
整数モデルでは、ImageNet上のResNet-18の精度を1.31%、ResNet-50の精度を0.90%向上させる。
従来のFP8モデルと比較して,新しい混合精度浮動小数点探索を探索し,最大0.98%改善した。
論文 参考訳(メタデータ) (2023-08-07T04:17:19Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - Activation Density based Mixed-Precision Quantization for Energy
Efficient Neural Networks [2.666640112616559]
ニューラルネットワークモデルのイントレーニング量子化手法を提案する。
本手法は,混合精度モデルの学習中に各層に対するビット幅を計算する。
VGG19/ResNet18アーキテクチャ上で、CIFAR-10、CIFAR-100、TinyImagenetなどのベンチマークデータセットの実験を行います。
論文 参考訳(メタデータ) (2021-01-12T09:01:44Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。