論文の概要: Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance
- arxiv url: http://arxiv.org/abs/2301.13376v1
- Date: Tue, 31 Jan 2023 02:46:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 17:52:17.446766
- Title: Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance
- Title(参考訳): オーバーフロー回避による低精度蓄積のための量子ニューラルネットワーク
- Authors: Ian Colbert, Alessandro Pappalardo, Jakoba Petri-Koenig
- Abstract要約: 本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
- 参考スコア(独自算出の注目度): 68.8204255655161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a quantization-aware training algorithm that guarantees avoiding
numerical overflow when reducing the precision of accumulators during
inference. We leverage weight normalization as a means of constraining
parameters during training using accumulator bit width bounds that we derive.
We evaluate our algorithm across multiple quantized models that we train for
different tasks, showing that our approach can reduce the precision of
accumulators while maintaining model accuracy with respect to a floating-point
baseline. We then show that this reduction translates to increased design
efficiency for custom FPGA-based accelerators. Finally, we show that our
algorithm not only constrains weights to fit into an accumulator of
user-defined bit width, but also increases the sparsity and compressibility of
the resulting weights. Across all of our benchmark models trained with 8-bit
weights and activations, we observe that constraining the hidden layers of
quantized neural networks to fit into 16-bit accumulators yields an average
98.2% sparsity with an estimated compression rate of 46.5x all while
maintaining 99.2% of the floating-point performance.
- Abstract(参考訳): 本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
我々は、アキュムレータビット幅境界を用いてトレーニング中にパラメータを制約する手段として、重み正規化を利用する。
提案手法は,浮動小数点ベースラインに対してモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
そして、この削減により、カスタムFPGAベースのアクセラレータの設計効率が向上することを示す。
最後に,本アルゴリズムは,ユーザ定義ビット幅のアキュミュレータに重みを適合させるだけでなく,重みの空間性と圧縮性も向上することを示す。
8ビットの重みとアクティベーションでトレーニングされたベンチマークモデル全体にわたって、量子化されたニューラルネットワークの隠れ層を16ビットのアキュムレータに適合させることで、平均98.2%の間隔が得られ、全ての圧縮速度は46.5倍となり、浮動小数点性能の99.2%を維持している。
関連論文リスト
- MixQuant: Mixed Precision Quantization with a Bit-width Optimization
Search [7.564770908909927]
量子化は、効率的なディープニューラルネットワーク(DNN)を作成する技術である
ラウンドオフ誤差に基づいて各層重みに対する最適な量子化ビット幅を求める検索アルゴリズムであるMixQuantを提案する。
我々は、MixQuantと最先端の量子化手法BRECQを組み合わせることで、BRECQ単独よりも優れた量子化モデル精度が得られることを示す。
論文 参考訳(メタデータ) (2023-09-29T15:49:54Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - A2Q: Accumulator-Aware Quantization with Guaranteed Overflow Avoidance [49.1574468325115]
accumulator-aware Quantization (A2Q)は、量子化されたニューラルネットワーク(QNN)をトレーニングして、推論時のオーバーフローを回避するために設計された新しい重み量子化手法である。
A2Qは重み正規化にインスパイアされたユニークな定式化を導入し、アキュミュレータビット幅境界に従ってモデルの重みのL1ノルムを制約する。
A2Qは浮動小数点ベースラインと競合するモデルの精度を維持しつつ、低精度のアキュムレータのためのQNNを訓練できることを示す。
論文 参考訳(メタデータ) (2023-08-25T17:28:58Z) - MINT: Multiplier-less INTeger Quantization for Energy Efficient Spiking
Neural Networks [20.473852621915956]
スパイキングニューラルネットワーク(SNN)における重みと膜電位を効率よく圧縮する一様量子化手法を提案する。
MINTは膜電位を非常に低い精度(2ビット)に量子化し、メモリフットプリントを大幅に減少させる。
実験結果から,本手法は実精度モデルや他の最先端SNN量子化手法の精度と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-16T23:38:35Z) - Sub 8-Bit Quantization of Streaming Keyword Spotting Models for Embedded
Chipsets [7.5195830365852085]
本稿では,250Kパラメータのフィードフォワード,ストリーミング,ステートフリーなキーワードスポッティングモデルの全コンポーネントに対する,新しいサブ8ビット量子化対応トレーニングアルゴリズムを提案する。
大規模実験を行い、26,000時間の非特定生産、遠距離場および近距離場音声データをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T17:46:08Z) - VS-Quant: Per-vector Scaled Quantization for Accurate Low-Precision
Neural Network Inference [7.886868529510128]
量子化は、訓練されたモデルの浮動小数点重みとアクティベーションをスケールファクターを用いて低ビット幅整数値にマッピングする。
過剰な量子化、過度に精度を低下させると、精度が低下する。
ベクトル単位のスケールファクタは、2レベル量子化スキームを使用する場合、低ビット幅の整数で実装できる。
論文 参考訳(メタデータ) (2021-02-08T19:56:04Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - WrapNet: Neural Net Inference with Ultra-Low-Resolution Arithmetic [57.07483440807549]
ニューラルネットワークをアキュムレータの低分解能(8ビット)加算に適応させ,32ビットのアキュムレータに匹敵する分類精度を実現する手法を提案する。
ソフトウェアプラットフォームとハードウェアプラットフォームの両方において、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-07-26T23:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。