論文の概要: InstMeter: An Instruction-Level Method to Predict Energy and Latency of DL Model Inference on MCUs
- arxiv url: http://arxiv.org/abs/2603.04134v1
- Date: Wed, 04 Mar 2026 14:48:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.357878
- Title: InstMeter: An Instruction-Level Method to Predict Energy and Latency of DL Model Inference on MCUs
- Title(参考訳): InstMeter: MCUにおけるDLモデル推論のエネルギーと遅延を予測する命令レベル手法
- Authors: Hao Liu, Qing Wang, Marco Zuniga,
- Abstract要約: 本稿では、MCUのクロックサイクルを利用した予測器であるInstMeterを提案し、ディープラーニングモデルのエネルギーとレイテンシを正確に推定する。
異なるシナリオ、MCU、ソフトウェア設定でInstMeterを徹底的に評価します。
NASシナリオでは、InstMeterはエネルギー予算を完全に活用し、推論精度の高い最適なDLモデルを特定する。
- 参考スコア(独自算出の注目度): 7.2181721806978585
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep learning (DL) models can now run on microcontrollers (MCUs). Through neural architecture search (NAS), we can search DL models that meet the constraints of MCUs. Among various constraints, energy and latency costs of the model inference are critical metrics. To predict them, existing research relies on coarse proxies such as multiply-accumulations (MACs) and model's input parameters, often resulting in inaccurate predictions or requiring extensive data collection. In this paper, we propose InstMeter, a predictor leveraging MCUs' clock cycles to accurately estimate the energy and latency of DL models. Clock cycles are fundamental metrics reflecting MCU operations, directly determining energy and latency costs. Furthermore, a unique property of our predictor is its strong linearity, allowing it to be simple and accurate. We thoroughly evaluate InstMeter under different scenarios, MCUs, and software settings. Compared with state-of-the-art studies, InstMeter can reduce the energy and latency prediction errors by $3\times$ and $6.5\times$, respectively, while requiring $100\times$ and $10\times$ less training data. In the NAS scenario, InstMeter can fully exploit the energy budget, identifying optimal DL models with higher inference accuracy. We also evaluate InstMeter's generalization performance through various experiments on three ARM MCUs (Cortex-M4, M7, M33) and one RISC-V-based MCU (ESP32-C3), different compilation options (-Os, -O2), GCC versions (v7.3, v10.3), application scenarios (keyword spotting, image recognition), dynamic voltage and frequency scaling, temperatures (21°C, 43°C), and software settings (TFLMv2.4, TFLMvCI). We will open our source codes and the MCU-specific benchmark datasets.
- Abstract(参考訳): ディープラーニング(DL)モデルがマイクロコントローラ(MCU)上で動作できるようになった。
ニューラルアーキテクチャサーチ(NAS)により、MCUの制約を満たすDLモデルを探索できる。
様々な制約の中で、モデル推論のエネルギーと遅延コストが重要な指標である。
これらを予測するために、既存の研究は、乗算累積(MAC)やモデルの入力パラメータといった粗いプロキシに依存しており、しばしば不正確な予測や広範なデータ収集を必要とする。
本稿では,MCUのクロックサイクルを利用した予測器であるInstMeterを提案し,DLモデルのエネルギーと遅延を正確に推定する。
クロックサイクルは、MCU操作を反映した基本的なメトリクスであり、エネルギーと遅延コストを直接決定する。
さらに、予測器のユニークな性質は、その強い線形性であり、単純かつ正確である。
異なるシナリオ、MCU、ソフトウェア設定でInstMeterを徹底的に評価します。
最先端の研究と比較すると、InstMeterはエネルギーと遅延予測エラーをそれぞれ$3\times$と$6.5\times$に減らし、100\times$と$10\times$のトレーニングデータを必要とする。
NASシナリオでは、InstMeterはエネルギー予算を完全に活用し、推論精度の高い最適なDLモデルを特定する。
また、3つのARM MCU(Cortex-M4, M7, M33)と1つのRISC-VベースのMCU(ESP32-C3)、異なるコンパイルオプション(-Os, -O2)、GCCバージョン(v7.3, v10.3)、アプリケーションシナリオ(キーワードスポッティング、画像認識)、動的電圧および周波数スケーリング、温度(21°C, 43°C)、ソフトウェア設定(TFLMv2.4, TFLMvCI)によるInstMeterの一般化性能を評価した。
ソースコードとMCU固有のベンチマークデータセットを公開します。
関連論文リスト
- NanoCockpit: Performance-optimized Application Framework for AI-based Autonomous Nanorobotics [50.594459728605734]
小型のフォームファクタ、すなわち10sグラムは、計算資源をSI100ミリワット以下のマイクロコントローラユニット(MCU)に著しく制限する。
本フレームワークは,タスクのシリアライズによるオーバーヘッドをゼロにすることで,クローズドループ制御性能の定量的改善を実現する。
論文 参考訳(メタデータ) (2026-01-12T12:29:38Z) - Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning [70.56067503630486]
第6世代(6G)インテリジェンスは、流動的なトークン予測ではなく、想像と選択の能力を校正している、と我々は主張する。
We showed that WM-MS3M cuts mean absolute error (MAE) by 1.69% vs MS3M with 32% less parameters and similar latency, and achieve a 35-80% lower root mean squared error (RMSE) than attention/hybrid baselines with 2.3-4.1x faster inference。
論文 参考訳(メタデータ) (2025-11-04T17:22:22Z) - Speeding Up MACE: Low-Precision Tricks for Equivarient Force Fields [51.95157731126864]
機械学習力場は高い計算コストで正確な分子動力学(MD)を提供することができる。
この論文は、計算ボトルネックを特定し、低精度の実行ポリシーを評価することで、MACEを安価かつ高速にすることを目的としている。
論文 参考訳(メタデータ) (2025-10-23T14:02:34Z) - Can Test-Time Scaling Improve World Foundation Model? [67.82670175383761]
我々は世界基盤モデル(WFM)に適したテストタイムスケーリングフレームワークであるSWIFTを紹介する。
SWIFTは、高速トークン化、確率ベースのTop-Kプルーニング、効率的なビームサーチを含むプロセスレベルの推論戦略とWFM評価ツールキットを統合した。
その結果,テストタイムスケーリング法則はWFMに対して有効であり,SWIFTはモデルサイズを調整・増大させることなく,WFM推論を改善するためのスケーラブルで効果的な経路を提供することがわかった。
論文 参考訳(メタデータ) (2025-03-31T17:07:37Z) - Accelerating TinyML Inference on Microcontrollers through Approximate Kernels [3.566060656925169]
本研究では、近似計算とソフトウェアカーネル設計を組み合わせることで、マイクロコントローラ上での近似CNNモデルの推定を高速化する。
CIFAR-10データセットでトレーニングされたSTM32-Nucleoボードと2つの人気のあるCNNによる評価は、最先端の正確な推測と比較すると、平均21%のレイテンシ削減が可能であることを示している。
論文 参考訳(メタデータ) (2024-09-25T11:10:33Z) - Power Scheduler: A Batch Size and Token Number Agnostic Learning Rate Scheduler [34.416299887009195]
提案したWSDスケジューラの最適学習率,バッチサイズ,トレーニングトークン数の相関について検討した。
本稿では,学習率スケジューラであるPowerスケジューラを提案する。
Powerスケジューラでトレーニングした3B高密度モデルとMoEモデルは、最先端の小型言語モデルと同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-08-23T20:22:20Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - MicroNAS: Memory and Latency Constrained Hardware-Aware Neural
Architecture Search for Time Series Classification on Microcontrollers [3.0723404270319685]
我々は、資源制約型マイクロコントローラ(MCU)における時系列分類問題を解決するために、差別化可能なニューラルネットワーク探索(DNAS)の概念を適用した。
ドメイン固有のHW-NASシステムであるMicroNASを導入し、DNAS、ルックアップテーブル、動的畳み込み、MCUの時系列分類に特化して設計された新しい検索空間を提案する。
異なるMCUと標準ベンチマークデータセットの研究により、MicroNASは、最先端のデスクトップモデルに近いパフォーマンス(F1スコア)を達成するMCUに適したアーキテクチャを見つけることを示した。
論文 参考訳(メタデータ) (2023-10-27T06:55:15Z) - Efficient Deep Learning Models for Privacy-preserving People Counting on
Low-resolution Infrared Arrays [11.363207467478134]
赤外線(IR)アレイセンサーは低コストで省エネでプライバシー保護のソリューションを提供する。
これまでの研究は、ディープラーニング(DL)がこのタスクにおいて優れたパフォーマンスが得られることを示した。
商業用8x8アレイから収集したIR画像からなる新しいデータセット上で,6種類のDLアーキテクチャを比較した。
論文 参考訳(メタデータ) (2023-04-12T15:29:28Z) - Quantification of Damage Using Indirect Structural Health Monitoring [0.0]
本研究は加速度計による損傷定量化に焦点を当てる。
橋の重量は異なるが損傷レベルは異なるが、31回の試験では20回の損傷レベルが異なる。
この方法論は、現実世界のアプリケーションでどれだけ効果的かを測定するために、この分野に応用されるべきである。
論文 参考訳(メタデータ) (2023-01-24T02:46:46Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - MicroNets: Neural Network Architectures for Deploying TinyML
Applications on Commodity Microcontrollers [18.662026553041937]
リソース制約付きマイクロコントローラ(MCU)による機械学習は、IoT(Internet of Things)のアプリケーション領域を大幅に拡大することを約束する
TinyMLは、ディープニューラルネットワーク推論が大きな計算とメモリの予算を必要とするため、深刻な技術的課題を提示している。
ニューラルネットワークサーチ(NAS)は、厳密なMCUメモリ、レイテンシ、エネルギー制約を満たす正確なMLモデルの設計を支援する。
論文 参考訳(メタデータ) (2020-10-21T19:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。