論文の概要: Benchmarking Ultra-Low-Power $μ$NPUs
- arxiv url: http://arxiv.org/abs/2503.22567v3
- Date: Fri, 31 Oct 2025 02:19:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 15:46:17.046539
- Title: Benchmarking Ultra-Low-Power $μ$NPUs
- Title(参考訳): 超低消費電力μ$NPUのベンチマーク
- Authors: Josh Millar, Yushan Huang, Sarab Sethi, Hamed Haddadi, Anil Madhavapeddy,
- Abstract要約: 効率的なオンデバイスニューラルネットワーク(NN)推論は、予測可能なレイテンシ、プライバシと信頼性の向上、ベンダの運用コストの低減を提供する。
近年、超低消費電力アプリケーションのために、マイクロコントローラスケールNNアクセラレーター(ニューラルプロセッシングユニット(mu$NPUs)とも呼ばれる)が開発されている。
本稿では,複数のプラットフォームを対象とした最初の独立ベンチマークを含む,有償の$mu$NPUの初回比較評価を行う。
- 参考スコア(独自算出の注目度): 5.1032153291137465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient on-device neural network (NN) inference offers predictable latency, improved privacy and reliability, and lower operating costs for vendors than cloud-based inference. This has sparked recent development of microcontroller-scale NN accelerators, also known as neural processing units ($\mu$NPUs), designed specifically for ultra-low-power applications. We present the first comparative evaluation of a number of commercially-available $\mu$NPUs, including the first independent benchmarks for multiple platforms. To ensure fairness, we develop and open-source a model compilation pipeline supporting consistent benchmarking of quantized models across diverse microcontroller hardware. Our resulting analysis uncovers both expected performance trends as well as surprising disparities between hardware specifications and actual performance, including certain $\mu$NPUs exhibiting unexpected scaling behaviors with model complexity. This work provides a foundation for ongoing evaluation of $\mu$NPU platforms, alongside offering practical insights for both hardware and software developers in this rapidly evolving space.
- Abstract(参考訳): 効率的なオンデバイスニューラルネットワーク(NN)推論は、予測可能なレイテンシ、プライバシと信頼性の向上、クラウドベースの推論よりもベンダの運用コストの低減を提供する。
このことが、超低消費電力アプリケーションに特化して設計された、ニューラルプロセッシングユニット(\mu$NPUs)としても知られる、マイクロコントローラスケールのNNアクセラレータの最近の発展を引き起こしている。
本稿では,複数のプラットフォームを対象とした最初の独立ベンチマークを含む,商用で利用可能な$\mu$NPUの初回比較評価を行う。
公平性を確保するため,各種マイクロコントローラハードウェアにおける量子化モデルの一貫したベンチマークをサポートするモデルコンパイルパイプラインを開発し,オープンソース化する。
その結果、期待されるパフォーマンストレンドと、ハードウェア仕様と実際のパフォーマンスの相違が明らかになった。
この研究は、この急速に発展する分野において、ハードウェア開発者とソフトウェア開発者に実用的な洞察を提供するとともに、$\mu$NPUプラットフォームの評価を継続する基盤を提供する。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。
アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。
ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T17:08:42Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - Towards Optimal VPU Compiler Cost Modeling by using Neural Networks to
Infer Hardware Performances [58.720142291102135]
VPUNN"は低レベルのタスクプロファイリングに基づいてトレーニングされたニューラルネットワークベースのコストモデルである。
これは、IntelのVPUプロセッサのラインにおける最先端のコストモデリングよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-05-09T22:48:39Z) - MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。
評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。
転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文 参考訳(メタデータ) (2021-11-30T03:52:15Z) - FLASH: Fast Neural Architecture Search with Hardware Optimization [7.263481020106725]
ニューラルアーキテクチャサーチ(NAS)は、効率的かつ高性能なディープニューラルネットワーク(DNN)を設計するための有望な手法である
本稿では,実ハードウェアプラットフォーム上でのDNNの精度と性能を協調的に最適化する,非常に高速なNAS手法であるFLASHを提案する。
論文 参考訳(メタデータ) (2021-08-01T23:46:48Z) - Generalized Latency Performance Estimation for Once-For-All Neural
Architecture Search [0.0]
特定のハードウェアとNAS検索空間で訓練されたベースモデルを用いた微調整を含む2つの汎用性戦略を紹介します。
ProxylessNASに比べて50%以上低いRMSE損失を達成できる待ち時間予測モデル群を提供する。
論文 参考訳(メタデータ) (2021-01-04T00:48:09Z) - HAPI: Hardware-Aware Progressive Inference [18.214367595727037]
畳み込みニューラルネットワーク(CNN)は最近、AIタスクの多様性における最先端技術となっている。
その人気にもかかわらず、CNN推論は依然として高い計算コストがかかる。
本研究は,ハイパフォーマンス・アーリーエグジット・ネットワークを創出するための新しい手法であるHAPIを提案する。
論文 参考訳(メタデータ) (2020-08-10T09:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。