論文の概要: Channel-wise Mixed-precision Assignment for DNN Inference on Constrained
Edge Nodes
- arxiv url: http://arxiv.org/abs/2206.08852v1
- Date: Fri, 17 Jun 2022 15:51:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 17:02:38.575771
- Title: Channel-wise Mixed-precision Assignment for DNN Inference on Constrained
Edge Nodes
- Title(参考訳): 制約エッジノード上のDNN推論のためのチャネルワイド混合精度アサインメント
- Authors: Matteo Risso, Alessio Burrello, Luca Benini, Enrico Macii, Massimo
Poncino, Daniele Jahier Pagliari
- Abstract要約: 最先端の混合精度は階層的に作用する、すなわち、各ネットワーク層の重みとアクティベーションのテンソルに異なるビット幅を使用する。
本研究では,各重みテンソルチャネルのビット幅を独立に選択する新しいNASを提案する。
我々のネットワークは、それぞれ最大63%と27%のメモリとエネルギーを削減します。
- 参考スコア(独自算出の注目度): 22.40937602825472
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Quantization is widely employed in both cloud and edge systems to reduce the
memory occupation, latency, and energy consumption of deep neural networks. In
particular, mixed-precision quantization, i.e., the use of different bit-widths
for different portions of the network, has been shown to provide excellent
efficiency gains with limited accuracy drops, especially with optimized
bit-width assignments determined by automated Neural Architecture Search (NAS)
tools. State-of-the-art mixed-precision works layer-wise, i.e., it uses
different bit-widths for the weights and activations tensors of each network
layer. In this work, we widen the search space, proposing a novel NAS that
selects the bit-width of each weight tensor channel independently. This gives
the tool the additional flexibility of assigning a higher precision only to the
weights associated with the most informative features. Testing on the MLPerf
Tiny benchmark suite, we obtain a rich collection of Pareto-optimal models in
the accuracy vs model size and accuracy vs energy spaces. When deployed on the
MPIC RISC-V edge processor, our networks reduce the memory and energy for
inference by up to 63% and 27% respectively compared to a layer-wise approach,
for the same accuracy.
- Abstract(参考訳): 量子化は、ディープニューラルネットワークのメモリ占有、レイテンシ、エネルギー消費を減らすために、クラウドとエッジシステムの両方で広く利用されている。
特に,ニューラルネットワーク探索(automated neural architecture search:nas)ツールによって決定される最適化されたビット幅割り当てにおいて,ネットワークの異なる部分に対する異なるビット幅の使用が,精度低下の少ない優れた効率向上をもたらすことが示されている。
最先端の混合精度は階層的に作用する、すなわち、各ネットワーク層の重みとアクティベーションのテンソルに異なるビット幅を使用する。
本研究では,各重みテンソルチャネルのビット幅を独立に選択する新しいNASを提案する。
これにより、最も情報性の高い機能に関連する重みにのみ高い精度を割り当てる、さらなる柔軟性が得られる。
MLPerf Tinyベンチマークスイートを用いて、精度対モデルサイズと精度対エネルギー空間におけるパレート最適モデルの豊富なコレクションを得る。
mpic risc-v edgeプロセッサにデプロイすると、ネットワークは同じ精度で、層別アプローチと比較して、推論のメモリとエネルギーを最大63%と27%削減します。
関連論文リスト
- A Practical Mixed Precision Algorithm for Post-Training Quantization [15.391257986051249]
混合精度量子化は、均一な量子化よりも優れた性能効率トレードオフを見つけるための有望な解である。
簡単な学習後混合精度アルゴリズムを提案する。
我々は,同質のビット幅等価値よりも精度と効率のトレードオフが良い混合精度ネットワークを見つけることができることを示す。
論文 参考訳(メタデータ) (2023-02-10T17:47:54Z) - Efficient and Effective Methods for Mixed Precision Neural Network
Quantization for Faster, Energy-efficient Inference [3.3213055774512648]
ネットワークの精度を下げるための量子化は、ネットワークを単純化する強力な技術である。
混合精度量子化法は,各レイヤの精度を選択的に調整し,タスク性能の最小低下を実現する。
タスク性能に及ぼすレイヤー精度選択の影響を推定するために,2つの方法を紹介した。
EAGLとALPSを用いて4ビット層と2ビット層を混合して完全精度を復元する。
論文 参考訳(メタデータ) (2023-01-30T23:26:33Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - Edge Inference with Fully Differentiable Quantized Mixed Precision
Neural Networks [1.131071436917293]
パラメータと演算をビット精度の低いものに量子化することで、ニューラルネットワークの推論にかなりのメモリとエネルギーを節約できる。
本稿では,エッジ計算を対象とする混合精度畳み込みニューラルネットワーク(CNN)の量子化手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T18:11:37Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - One Weight Bitwidth to Rule Them All [24.373061354080825]
ネットワーク全体に対して1ビット幅を使用すると、混合精度の量子化よりも精度がよいことを示す。
この結果から,チャネル数が対象のハイパーパラメータとなると,ネットワーク全体のシングルウェイトビット幅がモデル圧縮に優れた結果を示すことが示唆された。
論文 参考訳(メタデータ) (2020-08-22T21:40:22Z) - Rethinking Differentiable Search for Mixed-Precision Neural Networks [83.55785779504868]
低ビット幅に量子化された重みとアクティベーションを持つ低精度ネットワークは、エッジデバイスでの推論を加速するために広く利用されている。
現在の解は均一であり、全てのフィルタに同じビット幅を使用する。
これは異なるフィルタの異なる感度を考慮せず、最適以下である。
混合精度ネットワークは、ビット幅を個々のフィルタ要求に調整することでこの問題に対処する。
論文 参考訳(メタデータ) (2020-04-13T07:02:23Z) - WaveQ: Gradient-Based Deep Quantization of Neural Networks through
Sinusoidal Adaptive Regularization [8.153944203144988]
深部量子化トレーニングのための新しい正弦波正則化SINAREQを提案する。
我々はSINAREQが計算効率と精度のバランスをとる方法を示し、多種多様な深層ネットワークの量子化のための異種ビット幅割り当てを提供する。
論文 参考訳(メタデータ) (2020-02-29T01:19:55Z) - Toward fast and accurate human pose estimation via soft-gated skip
connections [97.06882200076096]
本稿では,高精度かつ高効率な人間のポーズ推定について述べる。
我々は、最先端技術よりも精度と効率を両立させる文脈において、この設計選択を再分析する。
本モデルでは,MPII と LSP のデータセットから最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-02-25T18:51:51Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。