論文の概要: A White Paper on Neural Network Quantization
- arxiv url: http://arxiv.org/abs/2106.08295v1
- Date: Tue, 15 Jun 2021 17:12:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 17:32:50.781117
- Title: A White Paper on Neural Network Quantization
- Title(参考訳): ニューラルネットワーク量子化に関する白書
- Authors: Markus Nagel, Marios Fournarakis, Rana Ali Amjad, Yelysei Bondarenko,
Mart van Baalen, Tijmen Blankevoort
- Abstract要約: 本稿では,量子化ノイズがネットワークの性能に与える影響を緩和する最新アルゴリズムを提案する。
我々は,ポストトレーニング量子化(PTQ)と量子化アウェア・トレーニング(QAT)の2つのアルゴリズムについて考察する。
- 参考スコア(独自算出の注目度): 20.542729144379223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While neural networks have advanced the frontiers in many applications, they
often come at a high computational cost. Reducing the power and latency of
neural network inference is key if we want to integrate modern networks into
edge devices with strict power and compute requirements. Neural network
quantization is one of the most effective ways of achieving these savings but
the additional noise it induces can lead to accuracy degradation. In this white
paper, we introduce state-of-the-art algorithms for mitigating the impact of
quantization noise on the network's performance while maintaining low-bit
weights and activations. We start with a hardware motivated introduction to
quantization and then consider two main classes of algorithms: Post-Training
Quantization (PTQ) and Quantization-Aware-Training (QAT). PTQ requires no
re-training or labelled data and is thus a lightweight push-button approach to
quantization. In most cases, PTQ is sufficient for achieving 8-bit quantization
with close to floating-point accuracy. QAT requires fine-tuning and access to
labeled training data but enables lower bit quantization with competitive
results. For both solutions, we provide tested pipelines based on existing
literature and extensive experimentation that lead to state-of-the-art
performance for common deep learning models and tasks.
- Abstract(参考訳): ニューラルネットワークは多くのアプリケーションにおいてフロンティアを進歩させてきたが、しばしば計算コストが高い。
厳格なパワーと計算要件を備えたエッジデバイスに現代的なネットワークを統合するためには、ニューラルネットワーク推論のパワーとレイテンシの削減が重要です。
ニューラルネットワークの量子化は、これらの節約を達成する最も効果的な方法の1つであるが、それが引き起こす追加ノイズは、精度の低下につながる。
本稿では,低ビット重みとアクティベーションを維持しつつ,量子化ノイズがネットワーク性能に与える影響を緩和する最新アルゴリズムを提案する。
まず、量子化の導入を動機とするハードウェアから始め、次に2つのアルゴリズム、PTQ(Post-Training Quantization)とQAT(Quantization-Aware-Training)を検討します。
PTQは再トレーニングやラベル付きデータを必要としないため、量子化に対する軽量なプッシュボタンアプローチである。
ほとんどの場合、PTQは浮動小数点精度に近い8ビット量子化を達成するのに十分である。
QATは、ラベル付きトレーニングデータへの微調整とアクセスを必要とするが、競合する結果の少ないビット量子化を可能にする。
どちらのソリューションも、既存の文献に基づいたテストパイプラインと、一般的なディープラーニングモデルとタスクの最先端のパフォーマンスにつながる広範な実験を提供する。
関連論文リスト
- SQUAT: Stateful Quantization-Aware Training in Recurrent Spiking Neural Networks [1.0923877073891446]
スパイキングニューラルネットワーク(SNN)は効率を向上させるという目標を共有しているが、ニューラルネットワーク推論の消費電力を減らすために、"イベント駆動"アプローチを採用する。
本稿では, ステートフルニューロンに対するQAT方式として, (i) 均一量子化戦略, (ii) 重み量子化の確立された方法, (ii) しきい値中心量子化の2つを紹介する。
以上の結果から,発火閾値付近の量子化レベルの密度の増加は,複数のベンチマークデータセットの精度を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T03:07:16Z) - Quantization-aware Interval Bound Propagation for Training Certifiably
Robust Quantized Neural Networks [58.195261590442406]
我々は、逆向きに頑健な量子化ニューラルネットワーク(QNN)の訓練と証明の課題について検討する。
近年の研究では、浮動小数点ニューラルネットワークが量子化後の敵攻撃に対して脆弱であることが示されている。
本稿では、堅牢なQNNをトレーニングするための新しい方法であるQA-IBP(quantization-aware interval bound propagation)を提案する。
論文 参考訳(メタデータ) (2022-11-29T13:32:38Z) - CEG4N: Counter-Example Guided Neural Network Quantization Refinement [2.722899166098862]
我々は,カウンタ・サンプル・ガイド付きニューラルネットワーク量子化リファインメント(CEG4N)を提案する。
この手法は探索に基づく量子化と等価検証を組み合わせたものである。
最先端技術よりも最大72%精度のモデルを作成します。
論文 参考訳(メタデータ) (2022-07-09T09:25:45Z) - Neural Network Quantization with AI Model Efficiency Toolkit (AIMET) [15.439669159557253]
AIモデル効率ツールキット(AIMET)を用いたニューラルネットワーク量子化の概要について述べる。
AIMETは、モデル最適化に必要な作業を容易にするために設計された最先端の量子化および圧縮アルゴリズムのライブラリである。
我々は、PTQとQAT、コード例、実用的なヒントを網羅し、AIMETによる量子化の実践的なガイドを提供する。
論文 参考訳(メタデータ) (2022-01-20T20:35:37Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - A quantum algorithm for training wide and deep classical neural networks [72.2614468437919]
勾配勾配勾配による古典的トレーサビリティに寄与する条件は、量子線形系を効率的に解くために必要な条件と一致することを示す。
MNIST画像データセットがそのような条件を満たすことを数値的に示す。
我々は、プールを用いた畳み込みニューラルネットワークのトレーニングに$O(log n)$の実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-07-19T23:41:03Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - BRECQ: Pushing the Limit of Post-Training Quantization by Block
Reconstruction [29.040991149922615]
PTQ(Post-training Quantization)という,エンドツーエンドの再トレーニングを伴わないニューラルネットワーク量子化の課題について検討する。
本稿では,PTQ のビット幅制限を INT2 に初めて押し下げる BRECQ という新しい PTQ フレームワークを提案する。
初めて、ベルとホイッスルなしで、PTQはQATに匹敵する4ビットのResNetとMobileNetV2を達成でき、量子化されたモデルの240倍高速な生産を享受できることを証明した。
論文 参考訳(メタデータ) (2021-02-10T13:46:16Z) - Recurrence of Optimum for Training Weight and Activation Quantized
Networks [4.103701929881022]
低精度の重みとアクティベーションを備えたディープラーニングモデルのトレーニングには、必要な最適化タスクが伴う。
ネットワーク量子化の性質を克服する方法を紹介します。
また,訓練用量子化深層ネットワークにおける重み進化の繰り返し現象の数値的証拠を示す。
論文 参考訳(メタデータ) (2020-12-10T09:14:43Z) - A Statistical Framework for Low-bitwidth Training of Deep Neural
Networks [70.77754244060384]
フル量子化トレーニング(FQT)は、ニューラルネットワークモデルのアクティベーション、重み、勾配を定量化することで、低ビット幅のハードウェアを使用する。
FQTの最大の課題は、特に勾配量子化が収束特性にどのように影響するかという理論的な理解の欠如である。
論文 参考訳(メタデータ) (2020-10-27T13:57:33Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。