論文の概要: Split CNN Inference on Networked Microcontrollers
- arxiv url: http://arxiv.org/abs/2605.09357v1
- Date: Sun, 10 May 2026 06:16:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.210546
- Title: Split CNN Inference on Networked Microcontrollers
- Title(参考訳): ネットワーク型マイクロコントローラにおける分割CNN推論
- Authors: Junyu Lu, Shashwath Suresh, Hao Liu, Qi Hong, Qing Wang,
- Abstract要約: マイクロコントローラ(MCU)上のディープニューラルネットワークは、限られたメモリリソースによって厳しく制限されている。
TinyMLのテクニックは、推論中にRAM(Random Access Memory)の使用が過大なため、実際に失敗する。
本稿では,複数のデバイスにまたがる畳み込みニューラルネットワーク(CNN)モデルの協調推論を可能にする,ネットワーク型MCUのための細粒度分割推論システムを提案する。
- 参考スコア(独自算出の注目度): 13.922830929023783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Running deep neural networks on microcontroller units (MCUs) is severely constrained by limited memory resources. While TinyML techniques reduce model size and computation, they often fail in practice due to excessive peak Random Access Memory (RAM) usage during inference, dominated by intermediate activations. As a result, many models remain infeasible on standalone MCUs. In this work, we present a fine-grained split inference system for networked MCUs that enables collaborative inference of Convolutional Neural Networks (CNN) models across multiple devices. Our key insight is that breaking the memory bottleneck requires splitting inference at sub-layer granularity rather than at layer boundaries. We reinterpret pre-trained models to enable kernel-wise and neuron-wise partitioning, and distribute both model parameters and intermediate activations across multiple MCUs. A lightweight, resource-aware coordinator orchestrates the inference across MCU devices with heterogeneous resources. We implement the proposed system on a real testbed and evaluate it on up to 8 MCUs using MobileNetV2, a representative CNN model. Our experimental results show that CNN models infeasible on a single MCU can be executed across networked MCUs, reducing the per-MCU peak RAM usage while maintaining the practical end-to-end inference latency. All the source code of this work can be found here: https://github.com/shashsuresh/split-inference-on-MCUs.
- Abstract(参考訳): マイクロコントローラユニット(MCU)上でのディープニューラルネットワークの実行は、限られたメモリリソースによって厳しく制限されている。
TinyML技術はモデルサイズと計算量を減らすが、推論中にRAM(Random Access Memory)が過大なピークのため、中間的なアクティベーションによって支配されるため、実際には失敗することが多い。
結果として、多くのモデルはスタンドアロンのMCUでは実現不可能なままである。
本研究では,複数のデバイスにまたがる畳み込みニューラルネットワーク(CNN)モデルの協調推論を可能にする,ネットワーク型MCUのための細粒度分割推論システムを提案する。
私たちの重要な洞察は、メモリボトルネックを壊すには、レイヤ境界ではなく、サブレイヤの粒度で推論を分割する必要があります。
我々は、事前学習されたモデルを再解釈し、カーネルワイドおよびニューロンワイドパーティショニングを可能にし、モデルパラメータと中間アクティベーションの両方を複数のMCUに分散する。
軽量でリソースを意識したコーディネータは、異質なリソースを持つMCUデバイス間で推論をオーケストレーションする。
提案手法を実検層上に実装し,CNNモデルであるMobileNetV2を用いて最大8MCUで評価する。
実験の結果,単一のMCU上では不可能なCNNモデルをネットワーク化されたMCUで実行可能であり,MCU当たりのRAM使用量を削減し,実用的なエンドツーエンドの推論レイテンシを維持できることがわかった。
この作業のソースコードはすべて、https://github.com/shashsuresh/split-inference-on-MCUsにある。
関連論文リスト
- NanoCockpit: Performance-optimized Application Framework for AI-based Autonomous Nanorobotics [50.594459728605734]
小型のフォームファクタ、すなわち10sグラムは、計算資源をSI100ミリワット以下のマイクロコントローラユニット(MCU)に著しく制限する。
本フレームワークは,タスクのシリアライズによるオーバーヘッドをゼロにすることで,クローズドループ制御性能の定量的改善を実現する。
論文 参考訳(メタデータ) (2026-01-12T12:29:38Z) - msf-CNN: Patch-based Multi-Stage Fusion with Convolutional Neural Networks for TinyML [0.20052993723676893]
我々は畳み込みニューラルネットワーク(CNN)のための最適な融合設定を効率的に見つける新しい手法であるmsf-CNNを紹介する。
我々はmsf-CNNが従来の技術に比べて50%少ないRAMで推論できることを示す。
論文 参考訳(メタデータ) (2025-05-16T17:47:15Z) - NNsight and NDIF: Democratizing Access to Open-Weight Foundation Model Internals [58.83169560132308]
NNsightとNDIFを導入し、非常に大きなニューラルネットワークによって学習された表現と計算の科学的研究を可能にする。
論文 参考訳(メタデータ) (2024-07-18T17:59:01Z) - MCU-MixQ: A HW/SW Co-optimized Mixed-precision Neural Network Design Framework for MCUs [9.719789698194154]
ニューラルネットワーク処理に十分なデータ幅を利用する混合精度ニューラルネットワーク(MPNN)は、厳密なリソース制約を満たすための効果的なアプローチである。
しかし、MCUクラスのISAにはサブバイトと混合精度のSIMD操作がない。
本研究では,複数の低ビット幅演算を単一の命令多重データ(SIMD)命令にパックする手法を提案する。
論文 参考訳(メタデータ) (2024-07-17T14:51:15Z) - Basic Binary Convolution Unit for Binarized Image Restoration Network [146.0988597062618]
本研究では,画像復元作業における残差接続,BatchNorm,アクティベーション機能,構造などのバイナリ畳み込みのコンポーネントを再検討する。
本研究の成果と分析に基づいて, 単純で効率的な基本二元畳み込みユニット (BBCU) を設計した。
我々のBBCUは、他のBNNや軽量モデルよりも大幅に優れており、BBCUがバイナライズされたIRネットワークの基本ユニットとして機能することを示しています。
論文 参考訳(メタデータ) (2022-10-02T01:54:40Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - MicroNets: Neural Network Architectures for Deploying TinyML
Applications on Commodity Microcontrollers [18.662026553041937]
リソース制約付きマイクロコントローラ(MCU)による機械学習は、IoT(Internet of Things)のアプリケーション領域を大幅に拡大することを約束する
TinyMLは、ディープニューラルネットワーク推論が大きな計算とメモリの予算を必要とするため、深刻な技術的課題を提示している。
ニューラルネットワークサーチ(NAS)は、厳密なMCUメモリ、レイテンシ、エネルギー制約を満たす正確なMLモデルの設計を支援する。
論文 参考訳(メタデータ) (2020-10-21T19:39:39Z) - Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文 参考訳(メタデータ) (2020-08-12T06:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。