論文の概要: Human Activity Recognition on Microcontrollers with Quantized and
Adaptive Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2209.00839v1
- Date: Fri, 2 Sep 2022 06:32:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 12:38:03.257895
- Title: Human Activity Recognition on Microcontrollers with Quantized and
Adaptive Deep Neural Networks
- Title(参考訳): 量子化・適応型ディープニューラルネットワークを用いたマイクロコントローラによるヒューマンアクティビティ認識
- Authors: Francesco Daghero, Alessio Burrello, Chen Xie, Marco Castellano, Luca
Gandolfi, Andrea Calimera, Enrico Macii, Massimo Poncino, Daniele Jahier
Pagliari
- Abstract要約: 慣性データに基づくヒューマンアクティビティ認識(HAR)は、組み込みデバイス上でますます普及しているタスクである。
ほとんどの組み込みHARシステムは、単純で精度の低い古典的機械学習アルゴリズムに基づいている。
本研究は,汎用マイクロコントローラ(MCU)上に展開可能な1次元畳み込みニューラルネットワーク(CNN)の集合を提案する。
- 参考スコア(独自算出の注目度): 10.195581493173643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human Activity Recognition (HAR) based on inertial data is an increasingly
diffused task on embedded devices, from smartphones to ultra low-power sensors.
Due to the high computational complexity of deep learning models, most embedded
HAR systems are based on simple and not-so-accurate classic machine learning
algorithms. This work bridges the gap between on-device HAR and deep learning,
proposing a set of efficient one-dimensional Convolutional Neural Networks
(CNNs) deployable on general purpose microcontrollers (MCUs). Our CNNs are
obtained combining hyper-parameters optimization with sub-byte and
mixed-precision quantization, to find good trade-offs between classification
results and memory occupation. Moreover, we also leverage adaptive inference as
an orthogonal optimization to tune the inference complexity at runtime based on
the processed input, hence producing a more flexible HAR system. With
experiments on four datasets, and targeting an ultra-low-power RISC-V MCU, we
show that (i) We are able to obtain a rich set of Pareto-optimal CNNs for HAR,
spanning more than 1 order of magnitude in terms of memory, latency and energy
consumption; (ii) Thanks to adaptive inference, we can derive >20 runtime
operating modes starting from a single CNN, differing by up to 10% in
classification scores and by more than 3x in inference complexity, with a
limited memory overhead; (iii) on three of the four benchmarks, we outperform
all previous deep learning methods, reducing the memory occupation by more than
100x. The few methods that obtain better performance (both shallow and deep)
are not compatible with MCU deployment. (iv) All our CNNs are compatible with
real-time on-device HAR with an inference latency <16ms. Their memory
occupation varies in 0.05-23.17 kB, and their energy consumption in 0.005 and
61.59 uJ, allowing years of continuous operation on a small battery supply.
- Abstract(参考訳): 慣性データに基づくヒューマンアクティビティ認識(HAR)は,スマートフォンから超低消費電力センサに至るまで,組み込みデバイス上でますます普及しつつある課題である。
ディープラーニングモデルの計算複雑性が高いため、ほとんどの組み込みHARシステムは、単純で精度の低い古典的機械学習アルゴリズムに基づいている。
この研究は、デバイス上のHARとディープラーニングのギャップを埋め、汎用マイクロコントローラ(MCU)上にデプロイ可能な効率的な1次元畳み込みニューラルネットワーク(CNN)セットを提案する。
cnnは,ハイパーパラメータ最適化とサブバイトおよび混合精度量子化を組み合わせることで,分類結果とメモリ占有の間の良好なトレードオフを求める。
さらに,適応推論を直交最適化として活用し,処理された入力に基づいて実行時の推論複雑性を調整し,より柔軟なharシステムを生成する。
4つのデータセットを実験し、超低消費電力のrisc-v mcuをターゲットとした。
(i)harのpareto-optimal cnnの豊富なセットを得ることができ、メモリ、待ち時間、エネルギー消費量の点で1桁以上に及ぶ。
(ii)適応的推論により、1つのcnnから20以上の実行時動作モードを導出することができ、分類スコアは最大10%、推論複雑性は3倍以上、メモリオーバーヘッドは限られている。
(iii)4つのベンチマークのうち3つにおいて,従来のすべてのディープラーニング手法を上回り,メモリ占有率を100倍以上に削減した。
より優れたパフォーマンス(浅度と深度の両方)を得るメソッドは、MCUデプロイメントと互換性がない。
(iv)すべてのcnnは,推論遅延が16msであるリアルタイムデバイスharと互換性があります。
メモリ消費は0.05-23.17 kBで、エネルギー消費は0.005と61.59 uJで変化し、小さな電池で長時間の連続運転が可能である。
関連論文リスト
- Scaling Studies for Efficient Parameter Search and Parallelism for Large
Language Model Pre-training [2.875838666718042]
並列および分散機械学習アルゴリズムの開発,特に5個のエンコーダデコーダLLMのデータの処理と事前学習の最適化に着目する。
我々は3つのMLメソッド間の関係を定量化するための詳細な研究を行い、特にMicrosoft DeepSpeed Zero Redundancyのステージを探索した。
論文 参考訳(メタデータ) (2023-10-09T02:22:00Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Energy-efficient Deployment of Deep Learning Applications on Cortex-M
based Microcontrollers using Deep Compression [1.4050836886292872]
本稿では,資源制約されたマイクロコントローラ上でのディープラーニングモデルの効率的な展開について検討する。
本稿では,異なるDNNプルーニング,量子化,展開戦略の体系的な探索手法を提案する。
予測品質が低下する前に、元のパラメータの10%以下まで圧縮できることが示される。
論文 参考訳(メタデータ) (2022-05-20T10:55:42Z) - YONO: Modeling Multiple Heterogeneous Neural Networks on
Microcontrollers [10.420617367363047]
YONOは製品量子化(PQ)ベースのアプローチで、複数の異種モデルを圧縮し、インメモリモデルの実行と切り替えを可能にする。
YONOは、複数の異種モデルを無視できるか、または12.37$times$まで精度を損なわないで圧縮できるので、優れた性能を示している。
論文 参考訳(メタデータ) (2022-03-08T01:24:36Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - EfficientTDNN: Efficient Architecture Search for Speaker Recognition in
the Wild [29.59228560095565]
認識精度を維持しつつ、推論効率を向上させるために、ニューラルネットワーク探索に基づく効率的な時間遅延ニューラルネットワーク(EfficientTDNN)を提案する。
VoxCelebデータセットの実験では、EfficientTDNNは約1013$sの巨大な検索スペースを提供し、1.66%のEERと0.156のDCF$_0.01$と565MMACを達成している。
論文 参考訳(メタデータ) (2021-03-25T03:28:07Z) - Hybrid In-memory Computing Architecture for the Training of Deep Neural
Networks [5.050213408539571]
ハードウェアアクセラレータ上でのディープニューラルネットワーク(DNN)のトレーニングのためのハイブリッドインメモリコンピューティングアーキテクチャを提案する。
HICをベースとしたトレーニングでは,ベースラインに匹敵する精度を達成するために,推論モデルのサイズが約50%小さくなることを示す。
シミュレーションの結果,HICをベースとしたトレーニングにより,PCMの耐久限界のごく一部に,デバイスによる書き込みサイクルの回数を自然に確保できることがわかった。
論文 参考訳(メタデータ) (2021-02-10T05:26:27Z) - Solving Mixed Integer Programs Using Neural Networks [57.683491412480635]
本稿では,mipソルバの2つのキーサブタスクに学習を適用し,高品質なジョイント変数割当を生成し,その割当と最適課題との客観的値の差を限定する。
提案手法は,ニューラルネットワークに基づく2つのコンポーネントであるニューラルダイバーディングとニューラルブランチを構築し,SCIPなどのベースMIPソルバで使用する。
2つのGoogle生産データセットとMIPLIBを含む6つの現実世界データセットに対するアプローチを評価し、それぞれに別々のニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2020-12-23T09:33:11Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。