論文の概要: Arbitrary Bit-width Network: A Joint Layer-Wise Quantization and
Adaptive Inference Approach
- arxiv url: http://arxiv.org/abs/2204.09992v1
- Date: Thu, 21 Apr 2022 09:36:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 13:51:54.328915
- Title: Arbitrary Bit-width Network: A Joint Layer-Wise Quantization and
Adaptive Inference Approach
- Title(参考訳): 任意ビット幅ネットワーク:結合層幅量子化と適応推論アプローチ
- Authors: Chen Tang, Haoyu Zhai, Kai Ouyang, Zhi Wang, Yifei Zhu, Wenwu Zhu
- Abstract要約: そこで本研究では,データ依存動的推論を実現するために,様々な量子化方式で異なるデータサンプルを微細な層レベルで供給することを提案する。
本稿では,Arbitrary Bit-width Network(ABN)を提案する。
ImageNet分類では、36.2%のBitOpsを節約しながら、1.1%のトップ1の精度向上を実現しています。
- 参考スコア(独自算出の注目度): 38.03309300383544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional model quantization methods use a fixed quantization scheme to
different data samples, which ignores the inherent "recognition difficulty"
differences between various samples. We propose to feed different data samples
with varying quantization schemes to achieve a data-dependent dynamic
inference, at a fine-grained layer level. However, enabling this adaptive
inference with changeable layer-wise quantization schemes is challenging
because the combination of bit-widths and layers is growing exponentially,
making it extremely difficult to train a single model in such a vast searching
space and use it in practice. To solve this problem, we present the Arbitrary
Bit-width Network (ABN), where the bit-widths of a single deep network can
change at runtime for different data samples, with a layer-wise granularity.
Specifically, first we build a weight-shared layer-wise quantizable
"super-network" in which each layer can be allocated with multiple bit-widths
and thus quantized differently on demand. The super-network provides a
considerably large number of combinations of bit-widths and layers, each of
which can be used during inference without retraining or storing myriad models.
Second, based on the well-trained super-network, each layer's runtime bit-width
selection decision is modeled as a Markov Decision Process (MDP) and solved by
an adaptive inference strategy accordingly. Experiments show that the
super-network can be built without accuracy degradation, and the bit-widths
allocation of each layer can be adjusted to deal with various inputs on the
fly. On ImageNet classification, we achieve 1.1% top1 accuracy improvement
while saving 36.2% BitOps.
- Abstract(参考訳): 従来のモデル量子化法では、異なるデータサンプルに対して固定量子化スキームを使用しており、様々なサンプル間の固有の「認識困難」の違いを無視している。
異なる量子化スキームで異なるデータサンプルを供給し,細粒度層レベルでデータ依存動的推論を実現することを提案する。
しかし、ビット幅と層の組み合わせが指数関数的に増加しており、このような広い探索空間において単一のモデルを訓練し、実際に使用することが極めて困難であるため、この適応推論を変更可能な層ワイド量子化スキームで実現することは困難である。
そこで本研究では,単一のディープネットワークのビット幅を異なるデータサンプルに対して実行時に変化させることができる任意のビット幅ネットワーク(abn)を提案する。
具体的には、まず、各層を複数のビット幅で割り当てて、必要に応じて異なる定量化が可能な重み共有層量子化可能な「スーパーネットワーク」を構築する。
スーパーネットワークはビット幅と層の組み合わせをかなり多く提供し、それぞれが推論中に無数のモデルを再訓練したり保存したりすることなく使用できる。
第二に、よく訓練されたスーパーネットワークに基づいて、各層のビット幅選択決定をマルコフ決定プロセス(MDP)としてモデル化し、適応推論戦略により解決する。
実験の結果,超ネットワークは精度の低下を伴わずに構築でき,各層のビット幅割り当てを調整して様々な入力をリアルタイムで処理できることがわかった。
imagenet分類では、36.2%のbitopsを節約しながら、1.1%のtop1精度向上を達成している。
関連論文リスト
- A Practical Mixed Precision Algorithm for Post-Training Quantization [15.391257986051249]
混合精度量子化は、均一な量子化よりも優れた性能効率トレードオフを見つけるための有望な解である。
簡単な学習後混合精度アルゴリズムを提案する。
我々は,同質のビット幅等価値よりも精度と効率のトレードオフが良い混合精度ネットワークを見つけることができることを示す。
論文 参考訳(メタデータ) (2023-02-10T17:47:54Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - Layer Ensembles [95.42181254494287]
本稿では,ネットワークの各層に対する独立なカテゴリ分布の集合を考慮した不確実性推定手法を提案する。
その結果,メモリと実行時間が少なくなるモデルが得られた。
論文 参考訳(メタデータ) (2022-10-10T17:52:47Z) - SDQ: Stochastic Differentiable Quantization with Mixed Precision [46.232003346732064]
本稿では,MPQ戦略を自動的に学習できる新しい微分可能量子化(SDQ)手法を提案する。
最適なMPQ戦略が得られた後、エントロピーを意識したビン正規化と知識蒸留でネットワークを訓練する。
SDQは、最先端の混合データセット、または低いビット幅で単一精度の量子化よりも優れている。
論文 参考訳(メタデータ) (2022-06-09T12:38:18Z) - Gated recurrent units and temporal convolutional network for multilabel
classification [122.84638446560663]
本研究は,マルチラベル分類を管理するための新しいアンサンブル手法を提案する。
提案手法のコアは,Adamグラデーション最適化アプローチの変種で訓練された,ゲート再帰単位と時間畳み込みニューラルネットワークの組み合わせである。
論文 参考訳(メタデータ) (2021-10-09T00:00:16Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - All at Once Network Quantization via Collaborative Knowledge Transfer [56.95849086170461]
オールオンス量子化ネットワークを効率的にトレーニングするための新しい共同知識伝達アプローチを開発しています。
具体的には、低精度の学生に知識を伝達するための高精度のエンクォータを選択するための適応的選択戦略を提案する。
知識を効果的に伝達するために,低精度の学生ネットワークのブロックを高精度の教師ネットワークのブロックにランダムに置き換える動的ブロックスワッピング法を開発した。
論文 参考訳(メタデータ) (2021-03-02T03:09:03Z) - A Greedy Algorithm for Quantizing Neural Networks [4.683806391173103]
本稿では,事前学習したニューラルネットワークの重みを定量化するための計算効率のよい新しい手法を提案する。
本手法は,複雑な再学習を必要とせず,反復的に層を定量化する手法である。
論文 参考訳(メタデータ) (2020-10-29T22:53:10Z) - WaveQ: Gradient-Based Deep Quantization of Neural Networks through
Sinusoidal Adaptive Regularization [8.153944203144988]
深部量子化トレーニングのための新しい正弦波正則化SINAREQを提案する。
我々はSINAREQが計算効率と精度のバランスをとる方法を示し、多種多様な深層ネットワークの量子化のための異種ビット幅割り当てを提供する。
論文 参考訳(メタデータ) (2020-02-29T01:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。