論文の概要: SDQ: Stochastic Differentiable Quantization with Mixed Precision
- arxiv url: http://arxiv.org/abs/2206.04459v1
- Date: Thu, 9 Jun 2022 12:38:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 12:41:31.440830
- Title: SDQ: Stochastic Differentiable Quantization with Mixed Precision
- Title(参考訳): SDQ:混合精度による確率微分可能量子化
- Authors: Xijie Huang, Zhiqiang Shen, Shichao Li, Zechun Liu, Xianghong Hu,
Jeffry Wicaksana, Eric Xing, Kwang-Ting Cheng
- Abstract要約: 本稿では,MPQ戦略を自動的に学習できる新しい微分可能量子化(SDQ)手法を提案する。
最適なMPQ戦略が得られた後、エントロピーを意識したビン正規化と知識蒸留でネットワークを訓練する。
SDQは、最先端の混合データセット、または低いビット幅で単一精度の量子化よりも優れている。
- 参考スコア(独自算出の注目度): 46.232003346732064
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In order to deploy deep models in a computationally efficient manner, model
quantization approaches have been frequently used. In addition, as new hardware
that supports mixed bitwidth arithmetic operations, recent research on mixed
precision quantization (MPQ) begins to fully leverage the capacity of
representation by searching optimized bitwidths for different layers and
modules in a network. However, previous studies mainly search the MPQ strategy
in a costly scheme using reinforcement learning, neural architecture search,
etc., or simply utilize partial prior knowledge for bitwidth assignment, which
might be biased and sub-optimal. In this work, we present a novel Stochastic
Differentiable Quantization (SDQ) method that can automatically learn the MPQ
strategy in a more flexible and globally-optimized space with smoother gradient
approximation. Particularly, Differentiable Bitwidth Parameters (DBPs) are
employed as the probability factors in stochastic quantization between adjacent
bitwidth choices. After the optimal MPQ strategy is acquired, we further train
our network with entropy-aware bin regularization and knowledge distillation.
We extensively evaluate our method for several networks on different hardware
(GPUs and FPGA) and datasets. SDQ outperforms all state-of-the-art mixed or
single precision quantization with a lower bitwidth and is even better than the
full-precision counterparts across various ResNet and MobileNet families,
demonstrating the effectiveness and superiority of our method.
- Abstract(参考訳): 深層モデルを計算効率良く展開するために,モデル量子化手法が頻繁に用いられている。
さらに、混合ビット幅演算をサポートする新しいハードウェアとして、最近のMPQ(Mixedcision Quantization)の研究は、ネットワーク内の異なる層やモジュールに対して最適化ビット幅を探索することによって、表現能力を完全に活用し始めている。
しかし,従来の研究では,強化学習やニューラルネットワーク検索などを用いたmpq戦略の探索や,偏りや副最適化の可能性のあるビット幅割り当てに対する部分事前知識の活用が主であった。
本研究では,よりスムーズな勾配近似を用いて,より柔軟でグローバルに最適化された空間でMPQ戦略を自動的に学習できる新しい確率微分量子化法を提案する。
特に、隣接するビット幅選択間の確率量子化の確率因子として、微分可能なビット幅パラメータ(DBP)が用いられる。
最適なMPQ戦略が得られた後、エントロピーを考慮したビン正規化と知識蒸留によりネットワークをさらに訓練する。
ハードウェア(GPUとFPGA)とデータセットの異なる複数のネットワークに対して,本手法を広範囲に評価する。
SDQは、最先端の混合または単一精度の量子化を低ビット幅で上回り、様々なResNetおよびMobileNetファミリーの完全精度の量子化よりも優れており、本手法の有効性と優位性を示している。
関連論文リスト
- Coverage Analysis for Digital Cousin Selection -- Improving Multi-Environment Q-Learning [24.212773534280387]
近年の進歩としては、マルチ環境混合Q-ラーニング(MEMQ)アルゴリズムがある。
MEMQアルゴリズムは、精度、複雑さ、堅牢性の点で、最先端のQ-ラーニングアルゴリズムよりも優れています。
本稿では,既存のMEMQアルゴリズムの精度と複雑さを改善するために,新しいCCベースのMEMQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-13T06:16:12Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Mixed-Precision Quantization with Cross-Layer Dependencies [6.338965603383983]
混合精度量子化(MPQ)は、様々なビット幅を層に割り当て、精度と効率のトレードオフを最適化する。
既存の手法は、異なる層における量子化誤差が独立に作用すると仮定することでMPQ問題を単純化する。
この仮定は、量子化された深層ニューラルネットワークの真の振舞いを反映していないことを示す。
論文 参考訳(メタデータ) (2023-07-11T15:56:00Z) - Data Quality-aware Mixed-precision Quantization via Hybrid Reinforcement
Learning [22.31766292657812]
混合精度量子化は、実際のトレーニングの前に、主にモデルビット幅設定を事前に決定する。
DQMQと呼ばれる新しいデータ品質対応混合精度量子化フレームワークを提案し、異なるデータ品質に量子化ビット幅を動的に適応させる。
論文 参考訳(メタデータ) (2023-02-09T06:14:00Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Effective and Fast: A Novel Sequential Single Path Search for
Mixed-Precision Quantization [45.22093693422085]
混合精度量子化モデルは、異なる層の感度に応じて異なる量子化ビット精度にマッチし、優れた性能を達成できます。
いくつかの制約に従ってディープニューラルネットワークにおける各層の量子化ビット精度を迅速に決定することは難しい問題である。
混合精度量子化のための新規なシーケンシャルシングルパス探索(SSPS)法を提案する。
論文 参考訳(メタデータ) (2021-03-04T09:15:08Z) - All at Once Network Quantization via Collaborative Knowledge Transfer [56.95849086170461]
オールオンス量子化ネットワークを効率的にトレーニングするための新しい共同知識伝達アプローチを開発しています。
具体的には、低精度の学生に知識を伝達するための高精度のエンクォータを選択するための適応的選択戦略を提案する。
知識を効果的に伝達するために,低精度の学生ネットワークのブロックを高精度の教師ネットワークのブロックにランダムに置き換える動的ブロックスワッピング法を開発した。
論文 参考訳(メタデータ) (2021-03-02T03:09:03Z) - BSQ: Exploring Bit-Level Sparsity for Mixed-Precision Neural Network
Quantization [32.770842274996774]
混合精度量子化は、ディープニューラルネットワークの性能と圧縮率の最適なトレードオフを実現できる可能性がある。
従来の方法は、小さな手作業で設計された検索空間のみを調べるか、面倒なニューラルネットワークアーキテクチャ検索を使用して広大な検索空間を探索する。
本研究では、ビットレベルスパーシティを誘導する新たな角度から、混合精度量子化に取り組むためのビットレベルスパーシティ量子化(BSQ)を提案する。
論文 参考訳(メタデータ) (2021-02-20T22:37:41Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z) - Rethinking Differentiable Search for Mixed-Precision Neural Networks [83.55785779504868]
低ビット幅に量子化された重みとアクティベーションを持つ低精度ネットワークは、エッジデバイスでの推論を加速するために広く利用されている。
現在の解は均一であり、全てのフィルタに同じビット幅を使用する。
これは異なるフィルタの異なる感度を考慮せず、最適以下である。
混合精度ネットワークは、ビット幅を個々のフィルタ要求に調整することでこの問題に対処する。
論文 参考訳(メタデータ) (2020-04-13T07:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。