論文の概要: On-Device Vision Training, Deployment, and Inference on a Thumb-Sized Microcontroller
- arxiv url: http://arxiv.org/abs/2604.23012v1
- Date: Fri, 24 Apr 2026 20:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.100179
- Title: On-Device Vision Training, Deployment, and Inference on a Thumb-Sized Microcontroller
- Title(参考訳): 母指サイズのマイクロコントローラのオンデバイスビジョントレーニング,展開,および推論
- Authors: Jeremy Ellis,
- Abstract要約: 本稿では,エンド・ツー・エンドのビジョン・デバイス・機械学習・パイプラインを提案する。
Seeed Studio ESP32-S3 XI Kit MLAO (8MB PSRAM)で動作し、ファームウェアはトレーニング1時間あたり約9分で3種類の64x64画像分類を実現し、リアルタイム推論は6.3 FPSである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a complete, end-to-end on-device vision machine learning pipeline, comprising data acquisition, two-layer CNN training with Adam optimization, and real-time inference, executing entirely on a microcontroller-class device costing $15-40 USD. Unlike cloud-based workflows that require external infrastructure and conceal the computational pipeline from the practitioner, this system implements every step of the core ML lifecycle in approximately 1,750 lines of readable C++ that compiles in under one minute using the Arduino IDE, with no external ML dependencies. Running on the Seeed Studio ESP32-S3 XIAO ML Kit (8 MB PSRAM), the firmware achieves three-class 64x64 image classification in approximately 9 minutes per training run, with real-time inference at 6.3 FPS. Key contributions include: correct batch-level gradient accumulation; pre-computed resize lookup tables for inference; dual-format weight export for SD-free baked-in deployment; a three-tier weight priority system (SD binary > baked-in header > He-initialization) resolved automatically at boot; a single-constant network reconfiguration interface; and PSRAM-aware memory management suited to microcontroller constraints. All source code and reference datasets are released under the MIT License at https://github.com/webmcu-ai/on-device-vision-ai
- Abstract(参考訳): 本稿では,データ取得,Adam最適化を用いた2層CNNトレーニング,リアルタイム推論を含む,エンド・ツー・エンドのデバイス・ビジョン・機械学習・パイプラインを提案する。
外部インフラストラクチャを必要とせず、実践者から計算パイプラインを隠蔽するクラウドベースのワークフローとは異なり、このシステムは、約1,750行の可読性C++でコアMLライフサイクルのすべてのステップを実装し、Arduino IDEを使用して1分以内でコンパイルされる。
Seeed Studio ESP32-S3 XIAO ML Kit (8MB PSRAM)上で動作するファームウェアは、トレーニング1時間あたり約9分で3クラスの64x64イメージ分類を実現し、リアルタイム推論は6.3 FPSである。
主なコントリビューションは、正しいバッチレベルの勾配の蓄積、推論のための計算済みリサイズルックアップテーブル、SDフリーの焼き込みデプロイメントのためのデュアルフォーマットの重量エクスポート、ブート時に自動的に3層重み付けシステム(SDバイナリ>焼き込みヘッダー>He-initialization)、単一インスタンスネットワーク再構成インターフェース、マイクロコントローラ制約に適したPSRAM対応メモリ管理である。
すべてのソースコードと参照データセットはMITライセンスでhttps://github.com/webmcu-ai/on-device-vision-aiで公開されている。
関連論文リスト
- In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Reduced Precision Floating-Point Optimization for Deep Neural Network
On-Device Learning on MicroControllers [15.37318446043671]
本稿では,MCUクラスデバイス上でのオンデバイス学習(ODL)プリミティブに対して,新しい精度最適化手法を提案する。
我々のアプローチは、シングルコアMCUのための既存のODLソフトウェアフレームワークよりも2桁以上高速である。
論文 参考訳(メタデータ) (2023-05-30T16:14:16Z) - HDCC: A Hyperdimensional Computing compiler for classification on
embedded systems and high-performance computing [58.720142291102135]
この研究は、HDC分類メソッドの高レベルな記述を最適化されたCコードに変換する最初のオープンソースコンパイラである、ネームコンパイラを紹介している。
nameは現代のコンパイラのように設計されており、直感的で記述的な入力言語、中間表現(IR)、再ターゲット可能なバックエンドを備えている。
これらの主張を裏付けるために,HDC文献で最もよく使われているデータセットについて,HDCCを用いて実験を行った。
論文 参考訳(メタデータ) (2023-04-24T19:16:03Z) - An Experimental Evaluation of Machine Learning Training on a Real
Processing-in-Memory System [9.429605859159023]
機械学習(ML)アルゴリズムのトレーニングは、計算集約的なプロセスであり、しばしばメモリバウンドである。
メモリ内の処理能力を備えたメモリ中心のコンピューティングシステムは、このデータ移動ボトルネックを軽減することができる。
実世界の汎用PIMアーキテクチャ上で,いくつかの代表的古典的MLアルゴリズムを実装した。
論文 参考訳(メタデータ) (2022-07-16T09:39:53Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-20T11:01:23Z) - MCUNet: Tiny Deep Learning on IoT Devices [62.752899523628066]
効率的なニューラルネットワーク(TinyNAS)と軽量推論エンジン(TinyEngine)を共同で設計するフレームワークを提案する。
TinyNASは、まず検索空間を最適化してリソース制約に適合させ、次に最適化された検索空間におけるネットワークアーキテクチャを専門化する、2段階のニューラルネットワーク検索アプローチを採用している。
TinyEngineは、階層的に最適化するのではなく、全体的なネットワークトポロジに従ってメモリスケジューリングを適応し、メモリ使用量を4.8倍削減する。
論文 参考訳(メタデータ) (2020-07-20T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。