論文の概要: Evaluating the Energy Efficiency of NPU-Accelerated Machine Learning Inference on Embedded Microcontrollers
- arxiv url: http://arxiv.org/abs/2509.17533v1
- Date: Mon, 22 Sep 2025 08:52:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.309757
- Title: Evaluating the Energy Efficiency of NPU-Accelerated Machine Learning Inference on Embedded Microcontrollers
- Title(参考訳): 組込みマイクロコントローラにおけるNPU加速機械学習推論のエネルギー効率評価
- Authors: Anastasios Fanariotis, Theofanis Orphanoudakis, Vasilis Fotopoulos,
- Abstract要約: 本稿では、ニューラルネットワークユニット(NPU)が機械学習(ML)の実行とマイクロコントローラ(MCU)に与える影響を評価する。
推論をNPUにオフロードすると、かなりの効率が向上する。
中程度のネットワークから大規模なネットワークでは、レイテンシの改善は7倍から125倍を超え、参照毎のネットエネルギーは143倍まで削減された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deployment of machine learning (ML) models on microcontrollers (MCUs) is constrained by strict energy, latency, and memory requirements, particularly in battery-operated and real-time edge devices. While software-level optimizations such as quantization and pruning reduce model size and computation, hardware acceleration has emerged as a decisive enabler for efficient embedded inference. This paper evaluates the impact of Neural Processing Units (NPUs) on MCU-based ML execution, using the ARM Cortex-M55 core combined with the Ethos-U55 NPU on the Alif Semiconductor Ensemble E7 development board as a representative platform. A rigorous measurement methodology was employed, incorporating per-inference net energy accounting via GPIO-triggered high-resolution digital multimeter synchronization and idle-state subtraction, ensuring accurate attribution of energy costs. Experimental results across six representative ML models -including MiniResNet, MobileNetV2, FD-MobileNet, MNIST, TinyYolo, and SSD-MobileNet- demonstrate substantial efficiency gains when inference is offloaded to the NPU. For moderate to large networks, latency improvements ranged from 7x to over 125x, with per-inference net energy reductions up to 143x. Notably, the NPU enabled execution of models unsupported on CPU-only paths, such as SSD-MobileNet, highlighting its functional as well as efficiency advantages. These findings establish NPUs as a cornerstone of energy-aware embedded AI, enabling real-time, power-constrained ML inference at the MCU level.
- Abstract(参考訳): 機械学習(ML)モデルのマイクロコントローラ(MCU)へのデプロイは、特にバッテリ操作およびリアルタイムエッジデバイスにおいて、厳しいエネルギー、レイテンシ、メモリ要求によって制限される。
量子化やプルーニングのようなソフトウェアレベルの最適化はモデルのサイズや計算を減少させるが、ハードウェアアクセラレーションは効率的な組込み推論のための決定的なイネーラとして登場した。
本稿では、Alif Semiconductor Ensemble E7開発ボード上でARM Cortex-M55コアとEthos-U55 NPUを組み合わせることで、MCUベースのML実行におけるニューラルプロセッシングユニット(NPU)の影響を評価する。
GPIOトリガーによる高分解能ディジタルマルチメーター同期とアイドル状態のサブトラクションを併用し,エネルギーコストの正確な寄与を確実なものとした厳密な計測手法が導入された。
MiniResNet、MobileNetV2、FD-MobileNet、MNIST、TinyYolo、SSD-MobileNetを含む6つの代表的なMLモデルに対する実験結果は、推論をNPUにオフロードした場合、かなりの効率向上を示す。
中程度のネットワークから大規模なネットワークでは、レイテンシの改善は7倍から125倍を超え、参照毎のネットエネルギーは143倍まで削減された。
特に、NPUはSSD-MobileNetのようなCPUのみのパスでモデルがサポートされない実行を可能にし、その機能と効率性を強調した。
これらの知見は、NPUをエネルギーを意識した組み込みAIの基礎として確立し、MCUレベルでリアルタイムで電力制約のあるML推論を可能にする。
関連論文リスト
- End-to-End Efficiency in Keyword Spotting: A System-Level Approach for Embedded Microcontrollers [0.18472148461613155]
KWS(Keywords Spoting)は、組み込みデバイスとIoTデバイスのハンズフリーインタラクションを可能にする重要な技術である。
本研究では,DS-CNN,LiCoNet,TENetなどの最先端の軽量ニューラルネットワークアーキテクチャと,MobileNet上に構築したTypman-KWSアーキテクチャを比較した。
この結果から, 3つの残差ブロックを持つTKWSは, 14.4kパラメータしか持たない92.4%のF1スコアが得られることがわかった。
論文 参考訳(メタデータ) (2025-09-08T16:01:55Z) - Benchmarking Energy and Latency in TinyML: A Novel Method for Resource-Constrained AI [0.0]
この研究は、エネルギーと遅延の測定を統合する代替のベンチマーク手法を導入する。
設定を評価するために、ニューラルネットワークを実行するためのNPUを含むSTM32N6 MCUをテストした。
その結果,コア電圧とクロック周波数の低減により,前処理と後処理の効率が向上することが示唆された。
論文 参考訳(メタデータ) (2025-05-21T15:12:14Z) - On-Sensor Convolutional Neural Networks with Early-Exits [3.916521228619074]
本稿では,STマイクロエレクトロニクスによる慣性計測ユニット(IMU)内の知的センサ処理ユニット(ISPU)で動作するDepth-First CNNの設計と実装について,文献の中で初めて紹介する。
本手法では,ISPU とマイクロコントローラ (MCU) 間の CNN を分割し,結果に対する十分な信頼が得られた場合,IMU 上の計算を停止するための早期実行機構を用いる。
論文 参考訳(メタデータ) (2025-03-21T08:31:07Z) - Energy-Aware FPGA Implementation of Spiking Neural Network with LIF Neurons [0.5243460995467893]
スパイキングニューラルネットワーク(SNN)は、TinyMLの最先端ソリューションとして際立っている。
本稿では,第1次Leaky Integrate-and-Fire(LIF)ニューロンモデルに基づく新しいSNNアーキテクチャを提案する。
ハードウェアフレンドリーなLIF設計も提案され、Xilinx Artix-7 FPGA上で実装されている。
論文 参考訳(メタデータ) (2024-11-03T16:42:10Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - EPIM: Efficient Processing-In-Memory Accelerators based on Epitome [78.79382890789607]
畳み込みのような機能を提供する軽量神経オペレータであるEpitomeを紹介する。
ソフトウェア側では,PIMアクセラレータ上でのエピトームのレイテンシとエネルギを評価する。
ハードウェア効率を向上させるため,PIM対応層設計手法を提案する。
論文 参考訳(メタデータ) (2023-11-12T17:56:39Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Q-EEGNet: an Energy-Efficient 8-bit Quantized Parallel EEGNet
Implementation for Edge Motor-Imagery Brain--Machine Interfaces [16.381467082472515]
運動画像脳-機械インタフェース(MI-BMI)は、人間の脳と機械間の直接的かつアクセス可能なコミュニケーションをプロミットする。
脳波信号を分類するためのディープラーニングモデルが登場した。
これらのモデルは、メモリと計算要求のため、エッジデバイスの限界を超えることが多い。
論文 参考訳(メタデータ) (2020-04-24T12:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。