論文の概要: TinyVLM: Zero-Shot Object Detection on Microcontrollers via Vision-Language Distillation with Matryoshka Embeddings
- arxiv url: http://arxiv.org/abs/2603.00136v1
- Date: Tue, 24 Feb 2026 05:32:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.045653
- Title: TinyVLM: Zero-Shot Object Detection on Microcontrollers via Vision-Language Distillation with Matryoshka Embeddings
- Title(参考訳): TinyVLM:Matryoshka Embeddingsを用いたビジョンランゲージ蒸留によるマイクロコントローラのゼロショット物体検出
- Authors: Bibin Wilson,
- Abstract要約: メモリ1MB未満のリソース制約MCU上でゼロショットオブジェクト検出を可能にする最初のフレームワークであるTinyVLMを提案する。
TinyVLMはCOCO、Flowers102、Food101で、RAMは285KB、フラッシュメモリは892KBである。
- 参考スコア(独自算出の注目度): 0.14504054468850666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot object detection enables recognising novel objects without task-specific training, but current approaches rely on large vision language models (VLMs) like CLIP that require hundreds of megabytes of memory - far exceeding the constraints of micro controller units (MCUs). We present TinyVLM, the first framework enabling zero-shot object detection on resource-constrained MCUs with less than 1MB of memory. Our approach introduces three key innovations: (1) a decoupled architecture that separates visual inference from text encoding, allowing precomputed class embeddings to be stored in flash memory; (2) Matryoshka distillation that trains nested embeddings at multiple dimensions (16-256), enabling flexible accuracy-memory trade-offs; and (3) quantized embedding storage that reduces class prototype memory by 4x with minimal accuracy loss. Trained on Conceptual Captions 3M (CC3M), TinyVLM achieves competitive zero-shot accuracy on COCO, Flowers102, and Food101 while requiring only 285KB of RAM and 892KB of flash memory for the deployed vision encoder. We demonstrate real-time inference at 26 FPS on STM32H7 and over 1,000 FPS on MAX78000 with its CNN accelerator, enabling practical zero-shot detection on edge devices for the first time.
- Abstract(参考訳): ゼロショットオブジェクト検出は、タスク固有のトレーニングなしで新しいオブジェクトを認識することができるが、現在のアプローチは、数百メガバイトのメモリを必要とするCLIPのような大規模な視覚言語モデル(VLM)に依存している。
メモリ1MB未満のリソース制約MCU上でゼロショットオブジェクト検出を可能にする最初のフレームワークであるTinyVLMを提案する。
提案手法では,(1) テキストエンコーディングから視覚的推論を分離し,予め計算したクラス埋め込みをフラッシュメモリに格納する疎結合アーキテクチャ,(2) 多次元の入れ子埋め込みを訓練するマトリオシュカ蒸留(16-256) と,(3) クラスプロトタイプメモリを4倍の精度で最小限の精度で削減する量子化埋め込みストレージの3つの重要なイノベーションを紹介する。
コンセプトキャプション3M (CC3M) で訓練されたTinyVLMは、COCO、Flowers102、Food101で競合ゼロショットの精度を達成し、285KBのRAMと892KBのフラッシュメモリしか必要としない。
我々は,STM32H7上で26FPS,MAX78000で1,000FPS以上のリアルタイム推論をCNNアクセラレータで実証し,エッジデバイス上での事実上のゼロショット検出を実現した。
関連論文リスト
- Latent Replay Detection: Memory-Efficient Continual Object Detection on Microcontrollers via Task-Adaptive Compression [0.14504054468850666]
既存の連続学習手法では、MCUメモリ予算を超える原画像を保存する必要がある。
MCUメモリ制約下での連続物体検出のための最初のフレームワークであるLatent Replay Detection (LRD)を提案する。
STM32H753ZI、ESP32-S3、MAX78000 MCUにデプロイされ、64KBのメモリ予算で推論毎に4.9-97.5msのレイテンシを実現する。
論文 参考訳(メタデータ) (2026-02-24T07:35:27Z) - FlashSVD: Memory-Efficient Inference with Streaming for Low-Rank Models [15.244129138320782]
FlashSVDは、SVD圧縮された大規模言語モデルのためのエンドツーエンドのランクアウェアストリーミング推論フレームワークである。
ピークアクティベーションメモリを最大70.2%削減し、中間のトランジェントメモリを75%削減する。
アップストリームエンコード圧縮法では精度の低下は生じず、低ランクLLMのメモリ制約による展開への実践的な経路を提供する。
論文 参考訳(メタデータ) (2025-08-02T22:06:46Z) - Designing Extremely Memory-Efficient CNNs for On-device Vision Tasks [2.9835839258066015]
デバイス上での視覚タスクにメモリ効率の良いCNN(畳み込みニューラルネットワーク)を導入する。
提案したネットワークは、競合するトップ1の精度(61.58%)を達成しつつ、非常に低いメモリ(63KB)でImageNetを分類する。
我々の知る限り、提案するネットワークのメモリ使用量は最先端のメモリ効率ネットワークよりもはるかに少ない。
論文 参考訳(メタデータ) (2024-08-07T10:04:04Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - MCUFormer: Deploying Vision Transformers on Microcontrollers with
Limited Memory [76.02294791513552]
我々はMCUFormerと呼ばれるハードウェア・アルゴリズムの協調最適化手法を提案し、メモリが極端に制限されたマイクロコントローラにビジョントランスフォーマーを配置する。
MCUFormerは320KBのメモリを持つ画像分類のためのImageNet上で73.62%のTop-1精度を実現している。
論文 参考訳(メタデータ) (2023-10-25T18:00:26Z) - TinyissimoYOLO: A Quantized, Low-Memory Footprint, TinyML Object
Detection Network for Low Power Microcontrollers [1.2846479438896337]
本稿では,TinyissimoYOLOと呼ばれる,高フレキシブル,量子化,メモリ効率,超軽量な物体検出ネットワークを提案する。
畳み込みニューラルネットワークの重みを格納するための0.5MB未満のメモリで、ミリワットの電力領域におけるマイクロコントローラのオブジェクト検出を可能にすることを目的としている。
論文 参考訳(メタデータ) (2023-05-22T12:57:38Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-20T11:01:23Z) - Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文 参考訳(メタデータ) (2020-08-12T06:09:58Z) - TinyTL: Reduce Activations, Not Trainable Parameters for Efficient
On-Device Learning [78.80707950262214]
デバイス上での学習により、エッジデバイスはAIモデルを新しいデータに継続的に適応できる。
既存の作業は、トレーニング可能なパラメータの数を減らすことで、この問題を解決する。
メモリ効率の高いオンデバイス学習のためのTiny-Transfer-Learning(TinyTL)を提案する。
論文 参考訳(メタデータ) (2020-07-22T18:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。