論文の概要: Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference
- arxiv url: http://arxiv.org/abs/2102.11289v1
- Date: Mon, 22 Feb 2021 19:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 13:45:57.069598
- Title: Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference
- Title(参考訳): PsとQs: 効率的な低レイテンシニューラルネットワーク推論のための量子化対応プルーニング
- Authors: Benjamin Hawks, Javier Duarte, Nicholas J. Fraser, Alessandro
Pappalardo, Nhan Tran, Yaman Umuroglu
- Abstract要約: 超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
- 参考スコア(独自算出の注目度): 56.24109486973292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient machine learning implementations optimized for inference in
hardware have wide-ranging benefits depending on the application from lower
inference latencies to higher data throughputs to more efficient energy
consumption. Two popular techniques for reducing computation in neural networks
are pruning, removing insignificant synapses, and quantization, reducing the
precision of the calculations. In this work, we explore the interplay between
pruning and quantization during the training of neural networks for ultra low
latency applications targeting high energy physics use cases. However,
techniques developed for this study have potential application across many
other domains. We study various configurations of pruning during
quantization-aware training, which we term \emph{quantization-aware pruning}
and the effect of techniques like regularization, batch normalization, and
different pruning schemes on multiple computational or neural efficiency
metrics. We find that quantization-aware pruning yields more computationally
efficient models than either pruning or quantization alone for our task.
Further, quantization-aware pruning typically performs similar to or better in
terms of computational efficiency compared to standard neural architecture
optimization techniques. While the accuracy for the benchmark application may
be similar, the information content of the network can vary significantly based
on the training configuration.
- Abstract(参考訳): ハードウェアでの推論に最適化された効率的な機械学習実装は、より低い推論遅延から高いデータスループット、より効率的なエネルギー消費まで、アプリケーションによって幅広い利点がある。
ニューラルネットワークの計算を削減するための2つの一般的なテクニックは、プルーニング、重要なシナプスの除去、量子化、計算の精度の低減である。
本研究では,高エネルギー物理ユースケースを対象とした超低レイテンシアプリケーションのためのニューラルネットワークのトレーニングにおけるプルーニングと量子化の相互作用について検討する。
しかし、この研究のために開発された技術は、他の多くの領域にまたがる可能性がある。
量子化アウェアトレーニング中のプルーニングの様々な構成について検討し,それを「emph{quantization-aware pruning}」と呼び,正規化,バッチ正規化,異なるプルーニングスキームが複数の計算量や神経効率指標に与える影響について検討した。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
さらに、量子化認識プルーニングは、通常、標準的なニューラルアーキテクチャ最適化技術と比較して、計算効率の点で同様の性能を発揮します。
ベンチマークアプリケーションの精度は似ているかもしれないが、ネットワークの情報内容はトレーニング構成によって大きく異なる可能性がある。
関連論文リスト
- Towards Efficient Verification of Quantized Neural Networks [9.352320240912109]
量子化は、深層ニューラルネットワークモデルにおける浮動小数点演算を整数演算に置き換える。
本研究では,勾配に基づく探索手法と有界伝播手法を用いて,効率を向上できることを示す。
論文 参考訳(メタデータ) (2023-12-20T00:43:13Z) - Efficient Neural PDE-Solvers using Quantization Aware Training [71.0934372968972]
量子化は、性能を維持しながら推論の計算コストを下げることができることを示す。
4つの標準PDEデータセットと3つのネットワークアーキテクチャの結果、量子化対応のトレーニングは、設定と3桁のFLOPで機能することがわかった。
論文 参考訳(メタデータ) (2023-08-14T09:21:19Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Energy Efficient Hardware Acceleration of Neural Networks with
Power-of-Two Quantisation [0.0]
我々は、Zynq UltraScale + MPSoC ZCU104 FPGA上に実装されたPoT重みを持つハードウェアニューラルネットワークアクセラレーターが、均一量子化バージョンよりも少なくとも1.4x$のエネルギー効率を持つことを示す。
論文 参考訳(メタデータ) (2022-09-30T06:33:40Z) - Decomposition of Matrix Product States into Shallow Quantum Circuits [62.5210028594015]
テンソルネットワーク(TN)アルゴリズムは、パラメタライズド量子回路(PQC)にマッピングできる
本稿では,現実的な量子回路を用いてTN状態を近似する新しいプロトコルを提案する。
その結果、量子回路の逐次的な成長と最適化を含む1つの特定のプロトコルが、他の全ての手法より優れていることが明らかとなった。
論文 参考訳(メタデータ) (2022-09-01T17:08:41Z) - Neural Network Quantization with AI Model Efficiency Toolkit (AIMET) [15.439669159557253]
AIモデル効率ツールキット(AIMET)を用いたニューラルネットワーク量子化の概要について述べる。
AIMETは、モデル最適化に必要な作業を容易にするために設計された最先端の量子化および圧縮アルゴリズムのライブラリである。
我々は、PTQとQAT、コード例、実用的なヒントを網羅し、AIMETによる量子化の実践的なガイドを提供する。
論文 参考訳(メタデータ) (2022-01-20T20:35:37Z) - A White Paper on Neural Network Quantization [20.542729144379223]
本稿では,量子化ノイズがネットワークの性能に与える影響を緩和する最新アルゴリズムを提案する。
我々は,ポストトレーニング量子化(PTQ)と量子化アウェア・トレーニング(QAT)の2つのアルゴリズムについて考察する。
論文 参考訳(メタデータ) (2021-06-15T17:12:42Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z) - Optimisation of a Siamese Neural Network for Real-Time Energy Efficient
Object Tracking [0.0]
組込み視覚システムのためのSiameseニューラルネットワークを用いた視覚物体追跡の最適化について述べる。
提案手法は,高解像度ビデオストリームに対して,リアルタイムに動作するものと推定された。
論文 参考訳(メタデータ) (2020-07-01T13:49:56Z) - Optimal Gradient Quantization Condition for Communication-Efficient
Distributed Training [99.42912552638168]
勾配の通信は、コンピュータビジョンアプリケーションで複数のデバイスでディープニューラルネットワークをトレーニングするのに費用がかかる。
本研究は,textbfANY勾配分布に対する二値および多値勾配量子化の最適条件を導出する。
最適条件に基づいて, 偏差BinGradと非偏差ORQの2値勾配量子化と多値勾配量子化の2つの新しい量子化手法を開発した。
論文 参考訳(メタデータ) (2020-02-25T18:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。