論文の概要: Post-training Quantization for Neural Networks with Provable Guarantees
- arxiv url: http://arxiv.org/abs/2201.11113v1
- Date: Wed, 26 Jan 2022 18:47:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 13:36:26.922984
- Title: Post-training Quantization for Neural Networks with Provable Guarantees
- Title(参考訳): 確率的保証付きニューラルネットワークのポストトレーニング量子化
- Authors: Jinjie Zhang, Yixuan Zhou, Rayan Saab
- Abstract要約: 学習後ニューラルネットワーク量子化手法であるGPFQを,欲求経路追従機構に基づいて修正する。
単層ネットワークを定量化するためには、相対二乗誤差は本質的に重み数で線形に減衰する。
- 参考スコア(独自算出の注目度): 9.58246628652846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While neural networks have been remarkably successful in a wide array of
applications, implementing them in resource-constrained hardware remains an
area of intense research. By replacing the weights of a neural network with
quantized (e.g., 4-bit, or binary) counterparts, massive savings in computation
cost, memory, and power consumption are attained. We modify a post-training
neural-network quantization method, GPFQ, that is based on a greedy
path-following mechanism, and rigorously analyze its error. We prove that for
quantizing a single-layer network, the relative square error essentially decays
linearly in the number of weights -- i.e., level of over-parametrization. Our
result holds across a range of input distributions and for both fully-connected
and convolutional architectures. To empirically evaluate the method, we
quantize several common architectures with few bits per weight, and test them
on ImageNet, showing only minor loss of accuracy. We also demonstrate that
standard modifications, such as bias correction and mixed precision
quantization, further improve accuracy.
- Abstract(参考訳): ニューラルネットワークは幅広いアプリケーションで著しく成功したが、リソースに制約のあるハードウェアで実装することは、依然として激しい研究分野である。
ニューラルネットワークの重みを量子化された(例えば4ビットやバイナリ)ものに置き換えることで、計算コスト、メモリ、消費電力の大幅な削減が達成される。
学習後のニューラルネットワーク量子化手法であるGPFQを,欲求経路追従機構に基づいて修正し,その誤差を厳密に解析する。
単層ネットワークの量子化において、相対二乗誤差は本質的に重み数、すなわち過パラメトリゼーションのレベルで線形に崩壊する。
この結果は、入力分布の幅と、完全接続アーキテクチャと畳み込みアーキテクチャの両方にまたがる。
この手法を実証的に評価するために,数ビット/重量で複数の共通アーキテクチャを定量化し,imagenetでテストし,精度の損失を小さく示した。
また,バイアス補正や混合精度量子化などの標準修正により,精度がさらに向上することを示す。
関連論文リスト
- Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - SPFQ: A Stochastic Algorithm and Its Error Analysis for Neural Network
Quantization [5.982922468400901]
ニューラルネットワークの重みの順に得られる誤差境界を達成可能であることを示す。
我々は、無限アルファベットと入力データに対する最小の仮定の下で、完全なネットワーク境界を達成できることを証明した。
論文 参考訳(メタデータ) (2023-09-20T00:35:16Z) - QEBVerif: Quantization Error Bound Verification of Neural Networks [6.327780998441913]
量子化は、エッジデバイスにディープニューラルネットワーク(DNN)をデプロイするための有望なテクニックとして広く見なされている。
既存の検証方法は、個々のニューラルネットワーク(DNNまたはQNN)または部分量子化のための量子化エラーにフォーカスする。
本稿では、重みとアクティベーションテンソルの両方を量子化する量子化誤差境界検証手法QEBVerifを提案する。
論文 参考訳(メタデータ) (2022-12-06T06:34:38Z) - Quantization-aware Interval Bound Propagation for Training Certifiably
Robust Quantized Neural Networks [58.195261590442406]
我々は、逆向きに頑健な量子化ニューラルネットワーク(QNN)の訓練と証明の課題について検討する。
近年の研究では、浮動小数点ニューラルネットワークが量子化後の敵攻撃に対して脆弱であることが示されている。
本稿では、堅牢なQNNをトレーニングするための新しい方法であるQA-IBP(quantization-aware interval bound propagation)を提案する。
論文 参考訳(メタデータ) (2022-11-29T13:32:38Z) - A simple approach for quantizing neural networks [7.056222499095849]
完全トレーニングニューラルネットワークの重みを定量化する新しい手法を提案する。
単純な決定論的事前処理のステップにより、メモリレススカラー量子化によってネットワーク層を定量化できます。
提案手法は, ディープ・ネットワークを単一層に連続的に適用することで, 容易に定量化することができる。
論文 参考訳(メタデータ) (2022-09-07T22:36:56Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - A Greedy Algorithm for Quantizing Neural Networks [4.683806391173103]
本稿では,事前学習したニューラルネットワークの重みを定量化するための計算効率のよい新しい手法を提案する。
本手法は,複雑な再学習を必要とせず,反復的に層を定量化する手法である。
論文 参考訳(メタデータ) (2020-10-29T22:53:10Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。