論文の概要: Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference
- arxiv url: http://arxiv.org/abs/2102.11289v1
- Date: Mon, 22 Feb 2021 19:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 13:45:57.069598
- Title: Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference
- Title(参考訳): PsとQs: 効率的な低レイテンシニューラルネットワーク推論のための量子化対応プルーニング
- Authors: Benjamin Hawks, Javier Duarte, Nicholas J. Fraser, Alessandro
Pappalardo, Nhan Tran, Yaman Umuroglu
- Abstract要約: 超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
- 参考スコア(独自算出の注目度): 56.24109486973292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient machine learning implementations optimized for inference in
hardware have wide-ranging benefits depending on the application from lower
inference latencies to higher data throughputs to more efficient energy
consumption. Two popular techniques for reducing computation in neural networks
are pruning, removing insignificant synapses, and quantization, reducing the
precision of the calculations. In this work, we explore the interplay between
pruning and quantization during the training of neural networks for ultra low
latency applications targeting high energy physics use cases. However,
techniques developed for this study have potential application across many
other domains. We study various configurations of pruning during
quantization-aware training, which we term \emph{quantization-aware pruning}
and the effect of techniques like regularization, batch normalization, and
different pruning schemes on multiple computational or neural efficiency
metrics. We find that quantization-aware pruning yields more computationally
efficient models than either pruning or quantization alone for our task.
Further, quantization-aware pruning typically performs similar to or better in
terms of computational efficiency compared to standard neural architecture
optimization techniques. While the accuracy for the benchmark application may
be similar, the information content of the network can vary significantly based
on the training configuration.
- Abstract(参考訳): ハードウェアでの推論に最適化された効率的な機械学習実装は、より低い推論遅延から高いデータスループット、より効率的なエネルギー消費まで、アプリケーションによって幅広い利点がある。
ニューラルネットワークの計算を削減するための2つの一般的なテクニックは、プルーニング、重要なシナプスの除去、量子化、計算の精度の低減である。
本研究では,高エネルギー物理ユースケースを対象とした超低レイテンシアプリケーションのためのニューラルネットワークのトレーニングにおけるプルーニングと量子化の相互作用について検討する。
しかし、この研究のために開発された技術は、他の多くの領域にまたがる可能性がある。
量子化アウェアトレーニング中のプルーニングの様々な構成について検討し,それを「emph{quantization-aware pruning}」と呼び,正規化,バッチ正規化,異なるプルーニングスキームが複数の計算量や神経効率指標に与える影響について検討した。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
さらに、量子化認識プルーニングは、通常、標準的なニューラルアーキテクチャ最適化技術と比較して、計算効率の点で同様の性能を発揮します。
ベンチマークアプリケーションの精度は似ているかもしれないが、ネットワークの情報内容はトレーニング構成によって大きく異なる可能性がある。
関連論文リスト
- Sparks of Quantum Advantage and Rapid Retraining in Machine Learning [0.0]
本研究では、最小パラメータで複雑な関数を表現するために、強力なニューラルネットワークアーキテクチャを最適化する。
高速再トレーニング機能を導入し、古いサンプルを再処理することなく、ネットワークを新しいデータで再トレーニングできるようにする。
量子ハードウェアとアルゴリズム最適化のさらなる進歩により、量子最適化機械学習モデルが幅広い応用をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-22T19:55:44Z) - Towards Efficient Verification of Quantized Neural Networks [9.352320240912109]
量子化は、深層ニューラルネットワークモデルにおける浮動小数点演算を整数演算に置き換える。
本研究では,勾配に基づく探索手法と有界伝播手法を用いて,効率を向上できることを示す。
論文 参考訳(メタデータ) (2023-12-20T00:43:13Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Efficient Neural PDE-Solvers using Quantization Aware Training [71.0934372968972]
量子化は、性能を維持しながら推論の計算コストを下げることができることを示す。
4つの標準PDEデータセットと3つのネットワークアーキテクチャの結果、量子化対応のトレーニングは、設定と3桁のFLOPで機能することがわかった。
論文 参考訳(メタデータ) (2023-08-14T09:21:19Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Energy Efficient Hardware Acceleration of Neural Networks with
Power-of-Two Quantisation [0.0]
我々は、Zynq UltraScale + MPSoC ZCU104 FPGA上に実装されたPoT重みを持つハードウェアニューラルネットワークアクセラレーターが、均一量子化バージョンよりも少なくとも1.4x$のエネルギー効率を持つことを示す。
論文 参考訳(メタデータ) (2022-09-30T06:33:40Z) - Decomposition of Matrix Product States into Shallow Quantum Circuits [62.5210028594015]
テンソルネットワーク(TN)アルゴリズムは、パラメタライズド量子回路(PQC)にマッピングできる
本稿では,現実的な量子回路を用いてTN状態を近似する新しいプロトコルを提案する。
その結果、量子回路の逐次的な成長と最適化を含む1つの特定のプロトコルが、他の全ての手法より優れていることが明らかとなった。
論文 参考訳(メタデータ) (2022-09-01T17:08:41Z) - A White Paper on Neural Network Quantization [20.542729144379223]
本稿では,量子化ノイズがネットワークの性能に与える影響を緩和する最新アルゴリズムを提案する。
我々は,ポストトレーニング量子化(PTQ)と量子化アウェア・トレーニング(QAT)の2つのアルゴリズムについて考察する。
論文 参考訳(メタデータ) (2021-06-15T17:12:42Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z) - Optimisation of a Siamese Neural Network for Real-Time Energy Efficient
Object Tracking [0.0]
組込み視覚システムのためのSiameseニューラルネットワークを用いた視覚物体追跡の最適化について述べる。
提案手法は,高解像度ビデオストリームに対して,リアルタイムに動作するものと推定された。
論文 参考訳(メタデータ) (2020-07-01T13:49:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。