論文の概要: One Model for All Quantization: A Quantized Network Supporting Hot-Swap
Bit-Width Adjustment
- arxiv url: http://arxiv.org/abs/2105.01353v1
- Date: Tue, 4 May 2021 08:10:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-05 12:57:37.971048
- Title: One Model for All Quantization: A Quantized Network Supporting Hot-Swap
Bit-Width Adjustment
- Title(参考訳): 全量子化の一モデル:ホットスワップビット幅調整をサポートする量子化ネットワーク
- Authors: Qigong Sun, Xiufang Li, Yan Ren, Zhongjian Huang, Xu Liu, Licheng
Jiao, Fang Liu
- Abstract要約: 多様なビット幅をサポートする全量子化のためのモデルを訓練する手法を提案する。
重みの多様性を高めるためにウェーブレット分解と再構成を用いる。
同じ精度で訓練された専用モデルに匹敵する精度が得られる。
- 参考スコア(独自算出の注目度): 36.75157407486302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an effective technique to achieve the implementation of deep neural
networks in edge devices, model quantization has been successfully applied in
many practical applications. No matter the methods of quantization aware
training (QAT) or post-training quantization (PTQ), they all depend on the
target bit-widths. When the precision of quantization is adjusted, it is
necessary to fine-tune the quantized model or minimize the quantization noise,
which brings inconvenience in practical applications. In this work, we propose
a method to train a model for all quantization that supports diverse bit-widths
(e.g., form 8-bit to 1-bit) to satisfy the online quantization bit-width
adjustment. It is hot-swappable that can provide specific quantization
strategies for different candidates through multiscale quantization. We use
wavelet decomposition and reconstruction to increase the diversity of weights,
thus significantly improving the performance of each quantization candidate,
especially at ultra-low bit-widths (e.g., 3-bit, 2-bit, and 1-bit).
Experimental results on ImageNet and COCO show that our method can achieve
accuracy comparable performance to dedicated models trained at the same
precision.
- Abstract(参考訳): エッジデバイスにおけるディープニューラルネットワークの実装を実現するための効果的な手法として、モデル量子化は多くの実用化に成功している。
量子化対応トレーニング (QAT) やポストトレーニング量子化 (PTQ) の方法はともかく、いずれも対象ビット幅に依存している。
量子化の精度が調整されると、量子化モデルを微調整するか、量子化ノイズを最小限に抑える必要がある。
本研究では、オンライン量子化ビット幅調整を満たすために、様々なビット幅(例えば8ビットから1ビット)をサポートする全量子化モデルを訓練する手法を提案する。
マルチスケールの量子化によって、異なる候補に対して特定の量子化戦略を提供できる。
ウェーブレットの分解と再構成により重みの多様性が向上し,特に超低ビット幅(3ビット,2ビット,1ビット)における各量子化候補の性能が大幅に向上する。
ImageNetとCOCOの実験結果から,本手法は同一精度で訓練した専用モデルに匹敵する精度が得られた。
関連論文リスト
- MixQuant: Mixed Precision Quantization with a Bit-width Optimization
Search [7.564770908909927]
量子化は、効率的なディープニューラルネットワーク(DNN)を作成する技術である
ラウンドオフ誤差に基づいて各層重みに対する最適な量子化ビット幅を求める検索アルゴリズムであるMixQuantを提案する。
我々は、MixQuantと最先端の量子化手法BRECQを組み合わせることで、BRECQ単独よりも優れた量子化モデル精度が得られることを示す。
論文 参考訳(メタデータ) (2023-09-29T15:49:54Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - Attention Round for Post-Training Quantization [0.9558392439655015]
本稿では,アテンションラウンドと呼ばれる新しい定量化手法を提案する。
異なる量子化値にマッピングされる確率は、量子化値とwの間の距離と負に相関し、ガウス函数と崩壊する。
ResNet18 と MobileNetV2 では,本論文で提案するポストトレーニング量子化は 1,024 のトレーニングデータと 10 分しか必要としない。
論文 参考訳(メタデータ) (2022-07-07T05:04:21Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Differentiable Model Compression via Pseudo Quantization Noise [99.89011673907814]
本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。
本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
論文 参考訳(メタデータ) (2021-04-20T14:14:03Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - Robust Quantization: One Model to Rule Them All [13.87610199914036]
本稿では,広範囲な量子化プロセスに対して,モデルに固有のロバスト性を提供する手法を提案する。
提案手法は理論的議論に動機付けられ,様々なビット幅と量子化ポリシで動作可能な単一汎用モデルを格納することができる。
論文 参考訳(メタデータ) (2020-02-18T16:14:36Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z) - Post-Training Piecewise Linear Quantization for Deep Neural Networks [13.717228230596167]
リソース制限されたデバイスへのディープニューラルネットワークのエネルギー効率向上において、量子化は重要な役割を果たす。
本稿では,長い尾を持つベル形状のテンソル値の正確な近似を実現するために,一方向線形量子化方式を提案する。
提案手法は,最先端のポストトレーニング量子化手法と比較して,画像分類,セマンティックセグメンテーション,オブジェクト検出においてわずかなオーバーヘッドで優れた性能を実現する。
論文 参考訳(メタデータ) (2020-01-31T23:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。