論文の概要: Evaluation of Convolution Primitives for Embedded Neural Networks on
32-bit Microcontrollers
- arxiv url: http://arxiv.org/abs/2303.10702v1
- Date: Sun, 19 Mar 2023 16:17:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 17:46:24.535995
- Title: Evaluation of Convolution Primitives for Embedded Neural Networks on
32-bit Microcontrollers
- Title(参考訳): 32ビットマイクロコントローラを用いた組込みニューラルネットワークの畳み込みプリミティブの評価
- Authors: Baptiste Nguyen, Pierre-Alain Moellic, Sylvain Blayac
- Abstract要約: オープンソースデプロイメントプラットフォーム(NNoM)を用いたARM Cortex-Mプロセッサファミリの実装を提案する。
本ベンチマークでは,理論MACとエネルギー消費の線形関係を明らかにする。
SIMD命令の使用による遅延とエネルギー消費の大幅な削減について論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deploying neural networks on constrained hardware platforms such as 32-bit
microcontrollers is a challenging task because of the large memory, computing
and energy requirements of their inference process. To tackle these issues,
several convolution primitives have been proposed to make the standard
convolution more computationally efficient. However, few of these primitives
are really implemented for 32-bit microcontrollers. In this work, we collect
different state-of-the-art convolutional primitives and propose an
implementation for ARM Cortex-M processor family with an open source deployment
platform (NNoM). Then, we carry out experimental characterization tests on
these implementations. Our benchmark reveals a linear relationship between
theoretical MACs and energy consumption. Thus showing the advantages of using
computationally efficient primitives like shift convolution. We discuss about
the significant reduction in latency and energy consumption due to the use of
SIMD instructions and highlight the importance of data reuse in those
performance gains. For reproducibility purpose and further experiments, codes
and experiments are publicly available.
- Abstract(参考訳): 32ビットマイクロコントローラのような制約のあるハードウェアプラットフォームにニューラルネットワークをデプロイすることは、大きなメモリ、コンピューティング、推論プロセスのエネルギー要求のために難しい課題である。
これらの問題に対処するために、標準畳み込みをより計算効率良くするためにいくつかの畳み込みプリミティブが提案されている。
しかし、これらのプリミティブのいくつかは32ビットマイクロコントローラ用に実際に実装されている。
本研究では、さまざまな最先端の畳み込みプリミティブを収集し、オープンソースデプロイメントプラットフォーム(NNoM)を備えたARM Cortex-Mプロセッサファミリの実装を提案する。
次に,これらの実装について実験的キャラクタリゼーション試験を行う。
本ベンチマークでは,理論MACとエネルギー消費の線形関係を明らかにする。
したがって、シフト畳み込みのような計算効率のよいプリミティブを使うことの利点を示す。
我々はSIMD命令の使用による遅延とエネルギー消費の大幅な削減について論じ、これらの性能向上におけるデータ再利用の重要性を強調した。
再現性とさらなる実験のために、コードと実験が公開されている。
関連論文リスト
- Accelerating TinyML Inference on Microcontrollers through Approximate Kernels [3.566060656925169]
本研究では、近似計算とソフトウェアカーネル設計を組み合わせることで、マイクロコントローラ上での近似CNNモデルの推定を高速化する。
CIFAR-10データセットでトレーニングされたSTM32-Nucleoボードと2つの人気のあるCNNによる評価は、最先端の正確な推測と比較すると、平均21%のレイテンシ削減が可能であることを示している。
論文 参考訳(メタデータ) (2024-09-25T11:10:33Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Human Activity Recognition on Microcontrollers with Quantized and
Adaptive Deep Neural Networks [10.195581493173643]
慣性データに基づくヒューマンアクティビティ認識(HAR)は、組み込みデバイス上でますます普及しているタスクである。
ほとんどの組み込みHARシステムは、単純で精度の低い古典的機械学習アルゴリズムに基づいている。
本研究は,汎用マイクロコントローラ(MCU)上に展開可能な1次元畳み込みニューラルネットワーク(CNN)の集合を提案する。
論文 参考訳(メタデータ) (2022-09-02T06:32:11Z) - Keyword Spotting System and Evaluation of Pruning and Quantization
Methods on Low-power Edge Microcontrollers [7.570300579676175]
キーワードスポッティング(KWS)は、エッジの低消費電力デバイスとの音声ベースのユーザインタラクションに有用である。
本稿では,Cortex-M7コア@216MHzと512KBの静的RAMを備えたSTM32F7マイクロコントローラ上で動作するKWSシステムについて述べる。
論文 参考訳(メタデータ) (2022-08-04T16:49:45Z) - MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。
評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。
転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文 参考訳(メタデータ) (2021-11-30T03:52:15Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Quantization and Deployment of Deep Neural Networks on Microcontrollers [0.0]
この研究は、低消費電力32ビットマイクロコントローラへのディープニューラルネットワークの量子化と展開に焦点を当てている。
エンドツーエンドのディープニューラルネットワークトレーニング、量子化、デプロイメントのための新しいフレームワークが紹介されている。
単一精度32ビット浮動小数点と8ビットおよび16ビット整数上の固定点を用いた実行がサポートされている。
論文 参考訳(メタデータ) (2021-05-27T17:39:06Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - Efficient Neural Network Deployment for Microcontroller [0.0]
本稿では,マイクロコントローラのための畳み込みニューラルネットワークの展開を探索し,一般化する。
メモリの節約と性能は、ARM Cortex-M CPU用に開発されたCMSIS-NNフレームワークと比較される。
最終的な目的は、トレーニングされたネットワーク重みを持つPyTorchモデルを消費するツールを開発することであり、低メモリ(キロバイトレベル)と限られた計算能力を持つマイクロコントローラのためにC/C++で最適化された推論エンジンとなる。
論文 参考訳(メタデータ) (2020-07-02T19:21:05Z) - On Coresets for Support Vector Machines [61.928187390362176]
coresetは、元のデータポイントの小さな、代表的なサブセットである。
我々は,本アルゴリズムを用いて,既製のSVMソルバをストリーミング,分散,動的データ設定に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-02-15T23:25:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。