Fugu-MT 論文翻訳(概要): Benchmarking Ultra-Low-Power $μ$NPUs

論文の概要: Benchmarking Ultra-Low-Power $μ$NPUs

arxiv url: http://arxiv.org/abs/2503.22567v1
Date: Fri, 28 Mar 2025 16:14:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-31 19:09:59.753408
Title: Benchmarking Ultra-Low-Power $μ$NPUs
Title（参考訳）: 超低消費電力μ$NPUのベンチマーク
Authors: Josh Millar, Yushan Huang, Sarab Sethi, Hamed Haddadi, Anil Madhavapeddy,
Abstract要約: 本報告では, 市販品である$mu$NPUの初回比較評価を行う。我々は,様々な$mu$NPUハードウェアにおける量子化モデルの一貫したベンチマークを可能にするモデルコンパイルフレームワークを開発し,オープンソース化する。
参考スコア（独自算出の注目度）: 5.577830976560545
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Efficient on-device neural network (NN) inference has various advantages over cloud-based processing, including predictable latency, enhanced privacy, greater reliability, and reduced operating costs for vendors. This has sparked the recent rapid development of microcontroller-scale NN accelerators, often referred to as neural processing units ($\mu$NPUs), designed specifically for ultra-low-power applications. In this paper we present the first comparative evaluation of a number of commercially-available $\mu$NPUs, as well as the first independent benchmarks for several of these platforms. We develop and open-source a model compilation framework to enable consistent benchmarking of quantized models across diverse $\mu$NPU hardware. Our benchmark targets end-to-end performance and includes model inference latency, power consumption, and memory overhead, alongside other factors. The resulting analysis uncovers both expected performance trends as well as surprising disparities between hardware specifications and actual performance, including $\mu$NPUs exhibiting unexpected scaling behaviors with increasing model complexity. Our framework provides a foundation for further evaluation of $\mu$NPU platforms alongside valuable insights for both hardware designers and software developers in this rapidly evolving space.
Abstract（参考訳）: 効率的なオンデバイスニューラルネットワーク(NN)推論は、予測可能なレイテンシ、プライバシの向上、信頼性の向上、ベンダの運用コスト削減など、クラウドベースの処理に対してさまざまなメリットがある。このことが、超低消費電力アプリケーションに特化して設計された、ニューラルプロセッシングユニット(\mu$NPUs)と呼ばれる、マイクロコントローラスケールのNNアクセラレータの急速な開発を引き起こしている。本稿では,有償の$\mu$NPUの初回比較評価と,これらのプラットフォームにおける最初の独立ベンチマークについて述べる。我々は,様々な$\mu$NPUハードウェアにおける量子化モデルの一貫したベンチマークを可能にするモデルコンパイルフレームワークを開発し,オープンソース化する。我々のベンチマークでは、エンド・ツー・エンドのパフォーマンスを目標としており、モデル推論のレイテンシ、消費電力、メモリオーバーヘッドなど他の要因も含んでいる。その結果、予想されるパフォーマンストレンドと、ハードウェア仕様と実際のパフォーマンスの相違が明らかになった。我々のフレームワークは、この急速に進化する分野において、ハードウェアデザイナとソフトウェア開発者の両方にとって貴重な洞察とともに、$\mu$NPUプラットフォームのさらなる評価のための基盤を提供する。

関連論文リスト

Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。 3つの戦略を含む新しい量子化フレームワークを導入する。このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文参考訳（メタデータ） (2024-07-28T17:46:15Z)
Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-20T17:08:42Z)
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。 LLMは、推論時でさえ非常に計算コストが高い。モデル間での推論効率を比較するための新しい指標を提案する。
論文参考訳（メタデータ） (2023-05-03T21:51:42Z)
Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文参考訳（メタデータ） (2022-09-27T15:04:01Z)
MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文参考訳（メタデータ） (2022-05-25T11:08:20Z)
Towards Optimal VPU Compiler Cost Modeling by using Neural Networks to Infer Hardware Performances [58.720142291102135]
VPUNN"は低レベルのタスクプロファイリングに基づいてトレーニングされたニューラルネットワークベースのコストモデルである。これは、IntelのVPUプロセッサのラインにおける最先端のコストモデリングよりも一貫して優れている。
論文参考訳（メタデータ） (2022-05-09T22:48:39Z)
MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文参考訳（メタデータ） (2021-11-30T03:52:15Z)
FLASH: Fast Neural Architecture Search with Hardware Optimization [7.263481020106725]
ニューラルアーキテクチャサーチ(NAS)は、効率的かつ高性能なディープニューラルネットワーク(DNN)を設計するための有望な手法である本稿では,実ハードウェアプラットフォーム上でのDNNの精度と性能を協調的に最適化する,非常に高速なNAS手法であるFLASHを提案する。
論文参考訳（メタデータ） (2021-08-01T23:46:48Z)
Generalized Latency Performance Estimation for Once-For-All Neural Architecture Search [0.0]
特定のハードウェアとNAS検索空間で訓練されたベースモデルを用いた微調整を含む2つの汎用性戦略を紹介します。 ProxylessNASに比べて50%以上低いRMSE損失を達成できる待ち時間予測モデル群を提供する。
論文参考訳（メタデータ） (2021-01-04T00:48:09Z)
HAPI: Hardware-Aware Progressive Inference [18.214367595727037]
畳み込みニューラルネットワーク(CNN)は最近、AIタスクの多様性における最先端技術となっている。その人気にもかかわらず、CNN推論は依然として高い計算コストがかかる。本研究は,ハイパフォーマンス・アーリーエグジット・ネットワークを創出するための新しい手法であるHAPIを提案する。
論文参考訳（メタデータ） (2020-08-10T09:55:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。