論文の概要: Benchmarking Energy and Latency in TinyML: A Novel Method for Resource-Constrained AI
- arxiv url: http://arxiv.org/abs/2505.15622v1
- Date: Wed, 21 May 2025 15:12:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.722373
- Title: Benchmarking Energy and Latency in TinyML: A Novel Method for Resource-Constrained AI
- Title(参考訳): TinyMLにおけるエネルギーとレイテンシのベンチマーク:資源制約型AIの新しい手法
- Authors: Pietro Bartoli, Christian Veronesi, Andrea Giudici, David Siorpaes, Diana Trojaniello, Franco Zappa,
- Abstract要約: この研究は、エネルギーと遅延の測定を統合する代替のベンチマーク手法を導入する。
設定を評価するために、ニューラルネットワークを実行するためのNPUを含むSTM32N6 MCUをテストした。
その結果,コア電圧とクロック周波数の低減により,前処理と後処理の効率が向上することが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of IoT has increased the need for on-edge machine learning, with TinyML emerging as a promising solution for resource-constrained devices such as MCU. However, evaluating their performance remains challenging due to diverse architectures and application scenarios. Current solutions have many non-negligible limitations. This work introduces an alternative benchmarking methodology that integrates energy and latency measurements while distinguishing three execution phases pre-inference, inference, and post-inference. Additionally, the setup ensures that the device operates without being powered by an external measurement unit, while automated testing can be leveraged to enhance statistical significance. To evaluate our setup, we tested the STM32N6 MCU, which includes a NPU for executing neural networks. Two configurations were considered: high-performance and Low-power. The variation of the EDP was analyzed separately for each phase, providing insights into the impact of hardware configurations on energy efficiency. Each model was tested 1000 times to ensure statistically relevant results. Our findings demonstrate that reducing the core voltage and clock frequency improve the efficiency of pre- and post-processing without significantly affecting network execution performance. This approach can also be used for cross-platform comparisons to determine the most efficient inference platform and to quantify how pre- and post-processing overhead varies across different hardware implementations.
- Abstract(参考訳): IoTの台頭は、オンプレミスの機械学習の必要性を増し、MCUのようなリソース制約のあるデバイスのための有望なソリューションとしてTinyMLが登場している。
しかしながら、アーキテクチャやアプリケーションのシナリオが多様であるため、パフォーマンスの評価は依然として難しい。
現在の解には、多くの非無視的な制限がある。
この研究は、エネルギーと遅延の測定を統合し、事前推論、推論、後推論の3つの実行フェーズを区別する代替のベンチマーク手法を導入する。
さらに、装置は外部測定ユニットを使わずに動作し、自動テストは統計的重要性を高めるために利用することができる。
設定を評価するために、ニューラルネットワークを実行するためのNPUを含むSTM32N6 MCUをテストした。
高性能と低出力の2つの構成が検討された。
EDPの変動は各相ごとに別々に分析され、ハードウェア構成がエネルギー効率に与える影響について考察した。
各モデルは統計学的に関連のある結果を保証するために1000回試験された。
その結果、コア電圧とクロック周波数の低減は、ネットワーク実行性能に大きな影響を及ぼすことなく、前処理と後処理の効率を向上させることがわかった。
このアプローチは、最も効率的な推論プラットフォームを決定するためのクロスプラットフォーム比較や、プリプロセスと後処理のオーバーヘッドが、異なるハードウェア実装間でどのように変化するかの定量化にも使用することができる。
関連論文リスト
- The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文 参考訳(メタデータ) (2025-05-14T08:18:55Z) - State-Aware IoT Scheduling Using Deep Q-Networks and Edge-Based Coordination [3.4260861366674105]
本稿では,複雑なアプリケーション環境において,インテリジェントIoTデバイスが直面するエネルギー効率管理の課題に対処する。
DQN(Deep Q-Network)とエッジ協調機構を組み合わせた新しい最適化手法を提案する。
FastBeeプラットフォームから収集した実世界のIoTデータを使って実験を行う。
論文 参考訳(メタデータ) (2025-04-22T04:24:16Z) - USEFUSE: Uniform Stride for Enhanced Performance in Fused Layer Architecture of Deep Neural Networks [0.6435156676256051]
本研究では,低レイテンシ左から右へのビットシリアル演算を用いた畳み込みのためのSum-of-Products (SOP)ユニットを提案する。
有効メカニズムは、ReLU層の後、非効率な畳み込みを検出し、スキップし、消費電力を最小化する。
ひとつはミッションクリティカルなアプリケーションの応答時間を最小限にすること、もうひとつはリソースに制約のあるデバイスに同じレイテンシでフォーカスすることである。
論文 参考訳(メタデータ) (2024-12-18T11:04:58Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - POMONAG: Pareto-Optimal Many-Objective Neural Architecture Generator [4.09225917049674]
Transferable NASが登場し、データセット依存からタスク依存への探索プロセスを一般化した。
本稿では多目的拡散プロセスを通じて拡散NAGを拡張するPOMONAGを紹介する。
結果は、NAS201とMobileNetV3の2つの検索スペースで検証され、15の画像分類データセットで評価された。
論文 参考訳(メタデータ) (2024-09-30T16:05:29Z) - AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - Comparison of edge computing methods in Internet of Things architectures for efficient estimation of indoor environmental parameters with Machine Learning [0.0]
室内環境品質(IEQ)パラメータを推定する軽量機械学習モデルを提案する。
その実装は、集中化された分散並列IoTアーキテクチャに基づいており、無線で接続されている。
MLモデルのトレーニングとテストは、小さな温度と照度データセットに焦点を当てた実験によって達成される。
論文 参考訳(メタデータ) (2024-02-07T21:15:18Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。