論文の概要: Automatic heterogeneous quantization of deep neural networks for
low-latency inference on the edge for particle detectors
- arxiv url: http://arxiv.org/abs/2006.10159v3
- Date: Mon, 21 Jun 2021 15:42:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 05:25:08.892470
- Title: Automatic heterogeneous quantization of deep neural networks for
low-latency inference on the edge for particle detectors
- Title(参考訳): 粒子検出器のエッジ上の低遅延推定のためのディープニューラルネットワークの自動不均一量子化
- Authors: Claudionor N. Coelho Jr., Aki Kuusela, Shan Li, Hao Zhuang, Thea
Aarrestad, Vladimir Loncar, Jennifer Ngadiuba, Maurizio Pierini, Adrian Alan
Pol, Sioni Summers
- Abstract要約: 我々は,チップ上での最小エネルギー,高精度,ナノ秒の推論,完全自動展開のための,深層ニューラルネットワークモデルの最適ヘテロジニゼーションバージョンを設計する手法を提案する。
これはCERN大型ハドロン衝突型加速器における陽子-陽子衝突におけるイベント選択の手順に不可欠であり、リソースは厳密に制限され、$mathcal O(1)mu$sのレイテンシが要求される。
- 参考スコア(独自算出の注目度): 5.609098985493794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although the quest for more accurate solutions is pushing deep learning
research towards larger and more complex algorithms, edge devices demand
efficient inference and therefore reduction in model size, latency and energy
consumption. One technique to limit model size is quantization, which implies
using fewer bits to represent weights and biases. Such an approach usually
results in a decline in performance. Here, we introduce a method for designing
optimally heterogeneously quantized versions of deep neural network models for
minimum-energy, high-accuracy, nanosecond inference and fully automated
deployment on chip. With a per-layer, per-parameter type automatic quantization
procedure, sampling from a wide range of quantizers, model energy consumption
and size are minimized while high accuracy is maintained. This is crucial for
the event selection procedure in proton-proton collisions at the CERN Large
Hadron Collider, where resources are strictly limited and a latency of
${\mathcal O}(1)~\mu$s is required. Nanosecond inference and a resource
consumption reduced by a factor of 50 when implemented on field-programmable
gate array hardware are achieved.
- Abstract(参考訳): より正確なソリューションを求めて、ディープラーニングの研究はより大きく複雑なアルゴリズムに向けられているが、エッジデバイスは効率的な推論を必要とし、モデルサイズ、レイテンシ、エネルギー消費量の削減が求められている。
モデルサイズを制限する1つの手法は量子化であり、重みとバイアスを表すためにビットが少ないことを意味する。
このようなアプローチは、通常パフォーマンスの低下をもたらす。
本稿では,チップ上での最小エネルギー,高精度,ナノ秒推論,完全自動配置を実現するための,深層ニューラルネットワークモデルの最適ヘテロジニゼーションバージョンを設計する手法を提案する。
層当たりのパラメータ型自動量子化法では、広範囲の量子化器からのサンプリングにより、高精度を維持しつつ、モデルエネルギー消費とサイズを最小化する。
CERN大型ハドロン衝突型加速器における陽子-陽子衝突におけるイベント選択の手順には、リソースの厳密な制限と、${\mathcal O}(1)~\mu$sのレイテンシが要求される。
フィールドプログラマブルゲートアレイハードウェアに実装した場合、ナノ秒の推論とリソース消費量を50倍に削減する。
関連論文リスト
- Constraint Guided Model Quantization of Neural Networks [0.0]
Constraint Guided Model Quantization (CGMQ) は、計算資源の上限を使い、ニューラルネットワークのパラメータのビット幅を削減する量子化対応トレーニングアルゴリズムである。
MNISTでは、CGMQの性能が最先端の量子化対応トレーニングアルゴリズムと競合していることが示されている。
論文 参考訳(メタデータ) (2024-09-30T09:41:16Z) - Gradient-based Automatic Mixed Precision Quantization for Neural Networks On-Chip [0.9187138676564589]
本稿では,革新的な量子化学習手法である高粒度量子化(HGQ)を提案する。
HGQは、勾配降下によって最適化できるようにすることで、重量当たりおよび活動当たりの精度を微調整する。
このアプローチは、演算演算が可能なハードウェア上で、超低レイテンシと低電力ニューラルネットワークを実現する。
論文 参考訳(メタデータ) (2024-05-01T17:18:46Z) - Hyperspherical Quantization: Toward Smaller and More Accurate Models [17.154801913113566]
ベクトル量子化は、モデルウェイトを高精度な埋め込みでインデックス化することで、モデルサイズを減らすことを目的としている。
バイナリや他の低精度量子化法は、モデルのサイズを32$times$まで削減できるが、かなりの精度低下を犠牲にすることができる。
より小型で高精度な圧縮モデルを生成するために, 3次量子化のための効率的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-24T04:42:15Z) - Automatic Network Adaptation for Ultra-Low Uniform-Precision
Quantization [6.1664476076961146]
一様精度ニューラルネットワーク量子化は、高計算能力のために高密度に充填された演算ユニットを単純化したため、人気を集めている。
層間の量子化誤差の影響に対して不均一な感度を無視し、結果として準最適推論をもたらす。
本研究は,超低精度量子化による精度劣化を軽減するために,ニューラルネットワーク構造を調整するニューラルチャネル拡張と呼ばれる新しいニューラルアーキテクチャ探索を提案する。
論文 参考訳(メタデータ) (2022-12-21T09:41:25Z) - Fast Exploration of the Impact of Precision Reduction on Spiking Neural
Networks [63.614519238823206]
ターゲットハードウェアがコンピューティングの端に達すると、スパイキングニューラルネットワーク(SNN)が実用的な選択となる。
我々は、近似誤差を伝播するそのようなモデルの能力を生かした探索手法を開発するために、インターヴァル算術(IA)モデルを用いる。
論文 参考訳(メタデータ) (2022-11-22T15:08:05Z) - AMED: Automatic Mixed-Precision Quantization for Edge Devices [3.5223695602582614]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
論文 参考訳(メタデータ) (2022-05-30T21:23:22Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。