論文の概要: WebSerial Vision Training for Microcontrollers: A Browser-Based Companion to On-Device CNN Training
- arxiv url: http://arxiv.org/abs/2604.22834v1
- Date: Mon, 20 Apr 2026 05:25:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:06.971109
- Title: WebSerial Vision Training for Microcontrollers: A Browser-Based Companion to On-Device CNN Training
- Title(参考訳): WebSerial Vision Training for Microcontroller: A Browser-based Companion to On-Device CNN Training
- Authors: Jeremy Ellis,
- Abstract要約: webmcu-vision-webはブラウザベースのアプリケーションで、Seeed Studio XIAO ESP32-S3 Sense上で、エンドツーエンドのTinyMLビジョンモデルのトレーニングとデプロイを行う。
フラッシュスルーイメージ、CNNトレーニング、ウェイトエクスポート、ライブアクティベーションビジュアライゼーションなど、プライベートで完全にローカルな機械学習パイプラインを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents webmcu-vision-web, a single-file, zero-install browser application for end-to-end TinyML vision model training and deployment on the Seeed Studio XIAO ESP32-S3 Sense (XIAO ML Kit, $15--40 USD). Acting as a browser-based companion to the on-device Arduino firmware of Paper 1 [1], it provides a private, fully local machine learning pipeline, from firmware flashing through image collection, CNN training, weight export, and live activation visualization, without any software installation beyond a Chromium-based browser. The system targets educators, small businesses, and researchers who need to train task-specific visual classifiers under their exact deployment conditions. Key capabilities include: in-browser firmware flashing via esptool-js; an SD card file browser with image preview and inline editing; config.json live-sync for zero-recompile hyperparameter adjustment; webcam and ESP32 OV2640 camera image capture; TensorFlow.js CNN training completing a three-class run (~30 images per class, 20 epochs) in approximately 1 minute browser-side versus 9 minutes on-device, enabling a complete collect-train-deploy cycle in under 10 minutes; weight export as myWeights.bin and myWeights.h; confusion matrix; and a live Conv2 activation heatmap streamed from the ESP32 during inference. No data leaves the local machine at any stage. A five-run consistency evaluation on the three-class reference problem (0Blank, 1Cup, 2Pen) demonstrates stable convergence with mean accuracy and standard deviation reported; all artefacts are released at the repository link below. The repository is a living template for LLM-assisted adaptation to new hardware and tasks. All source code is MIT-licensed at https://github.com/webmcu-ai/webmcu-vision-web.
- Abstract(参考訳): 本稿では、Seeed Studio XIAO ESP32-S3 Sense (XIAO ML Kit, $115-40 USD)上で、エンド・ツー・エンドのTinyMLビジョンモデルトレーニングとデプロイのためのシングルファイルゼロインストールブラウザアプリケーションであるwebmcu-vision-webを提案する。
デバイス上のArduinoファームウェアであるPaper 1 [1]のブラウザベースのコンパニオンとして機能し、ファームウェアのフラッシュからイメージコレクション、CNNトレーニング、ウェイトエクスポート、ライブアクティベーションビジュアライゼーションに至るまで、Chromiumベースのブラウザ以外のソフトウェアをインストールすることなく、プライベートで完全にローカルな機械学習パイプラインを提供する。
このシステムは、タスク固有の視覚的分類器を、正確な配置条件下で訓練する必要がある教育者、中小企業、研究者をターゲットにしている。
主要な機能としては、esptool-jsによるブラウザ内ファームウェアのフラッシュ、イメージプレビューとインライン編集を備えたSDカードファイルブラウザ、ゼロリコンパイルされたハイパーパラメータ調整のためのconfig.jsonライブ同期、WebcamとESP32 OV2640カメライメージキャプチャ、TensorFlow.js CNNトレーニング、約1分間のブラウザサイドでの3クラス実行(30のイメージ、20のエポック)と約9分間のオンデバイスでのトレーニング、10分以内の完全な収集トレインデプロイサイクルの実現、myWeights.binとmyWeights.hとしての重量エクスポート、混乱マトリックス、ESP32からストリームされたライブConv2アクティベーションヒートマップ、などがある。
ローカルマシンを任意の段階で残すデータは存在しない。
3クラス参照問題(0Blank, 1Cup, 2Pen)に対する5ランの整合性評価は、平均精度と標準偏差を報告した安定収束を示し、全ての成果物を下記のリポジトリリンクでリリースする。
このリポジトリは、新しいハードウェアやタスクへのLLM支援の適応のための生きたテンプレートである。
すべてのソースコードは、https://github.com/webmcu-ai/webmcu-vision-webでMITライセンスされている。
関連論文リスト
- On-Device Vision Training, Deployment, and Inference on a Thumb-Sized Microcontroller [0.0]
本稿では,エンド・ツー・エンドのビジョン・デバイス・機械学習・パイプラインを提案する。
Seeed Studio ESP32-S3 XI Kit MLAO (8MB PSRAM)で動作し、ファームウェアはトレーニング1時間あたり約9分で3種類の64x64画像分類を実現し、リアルタイム推論は6.3 FPSである。
論文 参考訳(メタデータ) (2026-04-24T20:59:16Z) - A ROS 2 Wrapper for Florence-2: Multi-Mode Local Vision-Language Inference for Robotic Systems [0.0]
本稿では、3つの相補的な相互作用モードを通してモデルを公開するFlorence-2用のROS 2ラッパーについて述べる。
ラッパーはローカル実行用に設計されており、ネイティブインストールとDockerコンテナのデプロイの両方をサポートする。
論文 参考訳(メタデータ) (2026-04-01T17:29:59Z) - Towards Universal Modal Tracking with Online Dense Temporal Token Learning [66.83607018706519]
オンライン高密度時間トークン学習を用いたユニバーサルビデオレベルのモダリティ認識追跡モデルを提案する。
モデルの入力をビデオシーケンスレベルに拡張し、よりリッチなビデオコンテキストを言語に近い視点から見ることを目的としている。
論文 参考訳(メタデータ) (2025-07-27T08:47:42Z) - Comgra: A Tool for Analyzing and Debugging Neural Networks [35.89730807984949]
PyTorchで使用するオープンソースのpythonライブラリであるcomgraを紹介します。
Comgraはモデルの内部アクティベーションに関するデータを抽出し、GUIで整理する。
要約統計と個々のデータポイントの両方を示し、トレーニングの初期段階と後期を比較し、関心のある個々のサンプルに注目し、ネットワークを通しての勾配の流れを可視化する。
論文 参考訳(メタデータ) (2024-07-31T14:57:23Z) - DistML.js: Installation-free Distributed Deep Learning Framework for Web Browsers [40.48978035180545]
DistML.jsは、Webブラウザ内で機械学習モデルのトレーニングと推論のために設計されたライブラリである。
実用的なアプリケーションとともに、DistML.jsの設計、API、実装に関する包括的な説明を提供する。
論文 参考訳(メタデータ) (2024-07-01T07:13:14Z) - Follow Anything: Open-set detection, tracking, and following in
real-time [89.83421771766682]
我々は,物体をリアルタイムで検出,追跡,追跡するロボットシステムを提案する。
私たちのアプローチは、何でも従う"(FAn)と呼ばれ、オープンな語彙とマルチモーダルモデルです。
FAnは軽量(6~8GB)グラフィックカードでラップトップにデプロイでき、毎秒6~20フレームのスループットを実現する。
論文 参考訳(メタデータ) (2023-08-10T17:57:06Z) - Internet Explorer: Targeted Representation Learning on the Open Web [121.02587846761627]
現代のビジョンモデルは通常、大規模で静的なデータセットで事前訓練された微調整の汎用モデルに依存している。
本稿では,インターネットを動的に活用して,手作業で極めてうまく動作する小規模モデルを迅速に訓練することを提案する。
当社のアプローチはInternet Explorerと呼ばれ,Webを自己教師型の方法で探索することで,望ましいターゲットデータセットのパフォーマンス向上に寄与する関連事例を段階的に見つける。
論文 参考訳(メタデータ) (2023-02-27T18:59:55Z) - USB: A Unified Semi-supervised Learning Benchmark [125.25384569880525]
半教師付き学習(SSL)は、大量のラベルのないデータを活用して、限定されたラベル付きサンプルを増やすことにより、モデルの一般化を改善する。
これまでの研究は通常、深層ニューラルネットワークをゼロから訓練するが、それは時間がかかり、環境に優しいものではない。
我々は、15の多様な、挑戦的で包括的なタスクを選択して、統一SSLベンチマーク(USB)を構築します。
論文 参考訳(メタデータ) (2022-08-12T15:45:48Z) - PyTorchVideo: A Deep Learning Library for Video Understanding [71.89124881732015]
PyTorchVideoは、ビデオ理解タスクのためのオープンソースのディープラーニングライブラリである。
マルチモーダルデータローディング、変換、モデルを含む、ビデオ理解ツールのフルスタックをカバーする。
ライブラリはPyTorchをベースにしており、任意のトレーニングフレームワークで使用することができる。
論文 参考訳(メタデータ) (2021-11-18T18:59:58Z) - Rethinking Zero-shot Video Classification: End-to-end Training for
Realistic Applications [26.955001807330497]
ゼロショット学習(ZSL)はモデルを一度トレーニングし、トレーニングデータセットにクラスが存在しない新しいタスクに一般化する。
ビデオ分類におけるZSLの最初のエンドツーエンドアルゴリズムを提案する。
トレーニング手順は,最近の映像分類文献の知見に基づいて,学習可能な3D CNNを用いて視覚的特徴を学習する。
論文 参考訳(メタデータ) (2020-03-03T11:09:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。