論文の概要: Searching for Low-Bit Weights in Quantized Neural Networks
- arxiv url: http://arxiv.org/abs/2009.08695v1
- Date: Fri, 18 Sep 2020 09:13:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 03:06:24.691180
- Title: Searching for Low-Bit Weights in Quantized Neural Networks
- Title(参考訳): 量子化ニューラルネットワークにおける低ビットウェイト探索
- Authors: Zhaohui Yang, Yunhe Wang, Kai Han, Chunjing Xu, Chao Xu, Dacheng Tao,
Chang Xu
- Abstract要約: 低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
- 参考スコア(独自算出の注目度): 129.8319019563356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantized neural networks with low-bit weights and activations are attractive
for developing AI accelerators. However, the quantization functions used in
most conventional quantization methods are non-differentiable, which increases
the optimization difficulty of quantized networks. Compared with full-precision
parameters (i.e., 32-bit floating numbers), low-bit values are selected from a
much smaller set. For example, there are only 16 possibilities in 4-bit space.
Thus, we present to regard the discrete weights in an arbitrary quantized
neural network as searchable variables, and utilize a differential method to
search them accurately. In particular, each weight is represented as a
probability distribution over the discrete value set. The probabilities are
optimized during training and the values with the highest probability are
selected to establish the desired quantized network. Experimental results on
benchmarks demonstrate that the proposed method is able to produce quantized
neural networks with higher performance over the state-of-the-art methods on
both image classification and super-resolution tasks.
- Abstract(参考訳): 低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
しかし、従来の量子化法で用いられる量子化関数は微分不可能であり、量子化ネットワークの最適化の難しさが増大する。
完全精度パラメータ(例えば32ビット浮動小数点数)と比較すると、より小さな集合から低ビット値が選択される。
例えば、4ビット空間には16の可能性がある。
そこで本研究では,任意の量子化ニューラルネットワークの離散重みを探索可能な変数とみなし,差分法を用いて正確に探索する。
特に、各重みは離散値集合上の確率分布として表される。
トレーニング中に確率を最適化し、最も高い確率の値を選択して所望の量子化ネットワークを確立する。
ベンチマーク実験の結果,提案手法は,画像分類と超解像処理の両方において,最先端手法よりも高い性能を持つ量子化ニューラルネットワークを生成できることが示されている。
関連論文リスト
- Automatic Network Adaptation for Ultra-Low Uniform-Precision
Quantization [6.1664476076961146]
一様精度ニューラルネットワーク量子化は、高計算能力のために高密度に充填された演算ユニットを単純化したため、人気を集めている。
層間の量子化誤差の影響に対して不均一な感度を無視し、結果として準最適推論をもたらす。
本研究は,超低精度量子化による精度劣化を軽減するために,ニューラルネットワーク構造を調整するニューラルチャネル拡張と呼ばれる新しいニューラルアーキテクチャ探索を提案する。
論文 参考訳(メタデータ) (2022-12-21T09:41:25Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - Class-based Quantization for Neural Networks [6.6707634590249265]
ディープニューラルネットワーク(DNN)では、大量の重みと乗算および累積(MAC)演算がある。
DNNにおける各フィルタやニューロンの最小量子化ビット数を決定するためのクラスベース量子化法を提案する。
実験により,提案手法は低ビット幅量子化で推定精度を維持することができることを示した。
論文 参考訳(メタデータ) (2022-11-27T20:25:46Z) - Post-training Quantization for Neural Networks with Provable Guarantees [9.58246628652846]
学習後ニューラルネットワーク量子化手法であるGPFQを,欲求経路追従機構に基づいて修正する。
単層ネットワークを定量化するためには、相対二乗誤差は本質的に重み数で線形に減衰する。
論文 参考訳(メタデータ) (2022-01-26T18:47:38Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - BSQ: Exploring Bit-Level Sparsity for Mixed-Precision Neural Network
Quantization [32.770842274996774]
混合精度量子化は、ディープニューラルネットワークの性能と圧縮率の最適なトレードオフを実現できる可能性がある。
従来の方法は、小さな手作業で設計された検索空間のみを調べるか、面倒なニューラルネットワークアーキテクチャ検索を使用して広大な検索空間を探索する。
本研究では、ビットレベルスパーシティを誘導する新たな角度から、混合精度量子化に取り組むためのビットレベルスパーシティ量子化(BSQ)を提案する。
論文 参考訳(メタデータ) (2021-02-20T22:37:41Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。