論文の概要: Quantization and Deployment of Deep Neural Networks on Microcontrollers
- arxiv url: http://arxiv.org/abs/2105.13331v1
- Date: Thu, 27 May 2021 17:39:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 17:25:30.687250
- Title: Quantization and Deployment of Deep Neural Networks on Microcontrollers
- Title(参考訳): マイクロコントローラにおけるディープニューラルネットワークの量子化と展開
- Authors: Pierre-Emmanuel Novac (1), Ghouthi Boukli Hacene (2 and 3), Alain
Pegatoquet (1), Beno\^it Miramond (1), Vincent Gripon (2) ((1) Universit\'e
C\^ote d'Azur, CNRS, LEAT, Sophia Antipolis, France, (2) IMT Atlantique,
Brest, France, (3) MILA, Montreal, Canada)
- Abstract要約: この研究は、低消費電力32ビットマイクロコントローラへのディープニューラルネットワークの量子化と展開に焦点を当てている。
エンドツーエンドのディープニューラルネットワークトレーニング、量子化、デプロイメントのための新しいフレームワークが紹介されている。
単一精度32ビット浮動小数点と8ビットおよび16ビット整数上の固定点を用いた実行がサポートされている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embedding Artificial Intelligence onto low-power devices is a challenging
task that has been partly overcome with recent advances in machine learning and
hardware design. Presently, deep neural networks can be deployed on embedded
targets to perform different tasks such as speech recognition,object detection
or Human Activity Recognition. However, there is still room for optimization of
deep neural networks onto embedded devices. These optimizations mainly address
power consumption,memory and real-time constraints, but also an easier
deployment at the edge. Moreover, there is still a need for a better
understanding of what can be achieved for different use cases. This work
focuses on quantization and deployment of deep neural networks onto low-power
32-bit microcontrollers. The quantization methods, relevant in the context of
an embedded execution onto a microcontroller, are first outlined. Then, a new
framework for end-to-end deep neural networks training, quantization and
deployment is presented. This framework, called MicroAI, is designed as an
alternative to existing inference engines (TensorFlow Lite for Microcontrollers
and STM32Cube.AI). Our framework can indeed be easily adjusted and/or extended
for specific use cases. Execution using single precision 32-bit floating-point
as well as fixed-point on 8- and 16-bit integers are supported. The proposed
quantization method is evaluated with three different datasets (UCI-HAR, Spoken
MNIST and GTSRB). Finally, a comparison study between MicroAI and both existing
embedded inference engines is provided in terms of memory and power efficiency.
On-device evaluation is done using ARM Cortex-M4F-based microcontrollers (Ambiq
Apollo3 and STM32L452RE).
- Abstract(参考訳): 人工知能を低消費電力デバイスに組み込むことは、機械学習とハードウェア設計の最近の進歩で部分的に克服された課題である。
現在、ディープニューラルネットワークは、組み込みターゲットに展開して、音声認識、オブジェクト検出、ヒューマンアクティビティ認識などのさまざまなタスクを実行することができる。
しかし、組み込みデバイスにディープニューラルネットワークを最適化する余地はまだ残っている。
これらの最適化は主に消費電力、メモリ、リアルタイムの制約に対処するが、エッジでのデプロイも容易である。
さらに、異なるユースケースで何が達成されるのかをよりよく理解する必要がある。
この研究は、低消費電力32ビットマイクロコントローラへのディープニューラルネットワークの量子化と展開に焦点を当てている。
マイクロコントローラへの組み込み実行のコンテキストに関連する量子化手法を最初に概説する。
次に、エンドツーエンドのディープニューラルネットワークトレーニング、量子化、デプロイメントのための新しいフレームワークを示す。
このフレームワークはMicroAIと呼ばれ、既存の推論エンジン(マイクロコントローラ用のTensorFlow LiteとSTM32Cube.AI)の代替として設計されている。
私たちのフレームワークは、特定のユースケースに対して簡単に調整したり、拡張したりできます。
シングル精度32ビット浮動小数点と8ビットおよび16ビット整数の固定点を用いた実行がサポートされている。
提案手法は3つの異なるデータセット(UCI-HAR, Spoken MNIST, GTSRB)を用いて評価する。
最後に,MicroAIと既存の組み込み推論エンジンの比較研究を,メモリと電力効率の観点から行った。
ARM Cortex-M4Fベースのマイクロコントローラ(Ambiq Apollo3とSTM32L452RE)を用いてデバイス上での評価を行う。
関連論文リスト
- Accelerating TinyML Inference on Microcontrollers through Approximate Kernels [3.566060656925169]
本研究では、近似計算とソフトウェアカーネル設計を組み合わせることで、マイクロコントローラ上での近似CNNモデルの推定を高速化する。
CIFAR-10データセットでトレーニングされたSTM32-Nucleoボードと2つの人気のあるCNNによる評価は、最先端の正確な推測と比較すると、平均21%のレイテンシ削減が可能であることを示している。
論文 参考訳(メタデータ) (2024-09-25T11:10:33Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Evaluation of Convolution Primitives for Embedded Neural Networks on
32-bit Microcontrollers [0.0]
オープンソースデプロイメントプラットフォーム(NNoM)を用いたARM Cortex-Mプロセッサファミリの実装を提案する。
本ベンチマークでは,理論MACとエネルギー消費の線形関係を明らかにする。
SIMD命令の使用による遅延とエネルギー消費の大幅な削減について論じる。
論文 参考訳(メタデータ) (2023-03-19T16:17:19Z) - Keyword Spotting System and Evaluation of Pruning and Quantization
Methods on Low-power Edge Microcontrollers [7.570300579676175]
キーワードスポッティング(KWS)は、エッジの低消費電力デバイスとの音声ベースのユーザインタラクションに有用である。
本稿では,Cortex-M7コア@216MHzと512KBの静的RAMを備えたSTM32F7マイクロコントローラ上で動作するKWSシステムについて述べる。
論文 参考訳(メタデータ) (2022-08-04T16:49:45Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - Neural network relief: a pruning algorithm based on neural activity [47.57448823030151]
重要でない接続を非活性化する簡易な重要スコア計量を提案する。
MNIST上でのLeNetアーキテクチャの性能に匹敵する性能を実現する。
このアルゴリズムは、現在のハードウェアとソフトウェアの実装を考えるとき、FLOPを最小化するように設計されていない。
論文 参考訳(メタデータ) (2021-09-22T15:33:49Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Efficient Neural Network Deployment for Microcontroller [0.0]
本稿では,マイクロコントローラのための畳み込みニューラルネットワークの展開を探索し,一般化する。
メモリの節約と性能は、ARM Cortex-M CPU用に開発されたCMSIS-NNフレームワークと比較される。
最終的な目的は、トレーニングされたネットワーク重みを持つPyTorchモデルを消費するツールを開発することであり、低メモリ(キロバイトレベル)と限られた計算能力を持つマイクロコントローラのためにC/C++で最適化された推論エンジンとなる。
論文 参考訳(メタデータ) (2020-07-02T19:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。