論文の概要: Latent Replay Detection: Memory-Efficient Continual Object Detection on Microcontrollers via Task-Adaptive Compression
- arxiv url: http://arxiv.org/abs/2603.00138v1
- Date: Tue, 24 Feb 2026 07:35:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.048206
- Title: Latent Replay Detection: Memory-Efficient Continual Object Detection on Microcontrollers via Task-Adaptive Compression
- Title(参考訳): 遅延再生検出:タスク適応圧縮によるマイクロコントローラ上でのメモリ効率の良い連続物体検出
- Authors: Bibin Wilson,
- Abstract要約: 既存の連続学習手法では、MCUメモリ予算を超える原画像を保存する必要がある。
MCUメモリ制約下での連続物体検出のための最初のフレームワークであるLatent Replay Detection (LRD)を提案する。
STM32H753ZI、ESP32-S3、MAX78000 MCUにデプロイされ、64KBのメモリ予算で推論毎に4.9-97.5msのレイテンシを実現する。
- 参考スコア(独自算出の注目度): 0.14504054468850666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying object detection on microcontrollers (MCUs) enables intelligent edge devices but current models cannot learn new object categories after deployment. Existing continual learning methods require storing raw images far exceeding MCU memory budgets of tens of kilobytes. We present Latent Replay Detection (LRD), the first framework for continual object detection under MCU memory constraints. Our key contributions are: 1. Task-Adaptive Compression: Unlike fixed PCA, we propose learnable compression with FiLM (Feature-wise Linear Modulation) conditioning, where task specific embeddings modulate the compression to preserve discriminative features for each task's distribution; 2. Spatial-Diverse Exemplar Selection: Traditional sampling ignores spatial information critical for detection - we select exemplars maximizing bounding box diversity via farthest-point sampling in IoU space, preventing localization bias in replay; 3. MCU-Deployable System: Our latent replay stores 150 bytes per sample versus >10KB for images, enabling a 64KB buffer to hold 400+ exemplars. Experiments on CORe50 (50 classes, 5 tasks) demonstrate that LRD achieves mAP@50 on the initial task and maintains strong performance across subsequent tasks - a significant improvement over naive fine-tuning while operating within strict MCU constraints. Our task-adaptive FiLM compression and spatial diverse exemplar selection work synergistically to preserve detection capabilities. Deployed on STM32H753ZI, ESP32-S3, and MAX78000 MCUs, LRD achieves 4.9-97.5ms latency per inference within a 64KB memory budget-enabling practical continual detection on edge devices for the first time.
- Abstract(参考訳): マイクロコントローラ(MCU)にオブジェクト検出をデプロイすることはインテリジェントエッジデバイスを可能にするが、現在のモデルはデプロイ後に新しいオブジェクトカテゴリを学習することはできない。
既存の連続学習法では、MCUメモリ予算の数十キロバイトを超える原画像を保存する必要がある。
MCUメモリ制約下での連続物体検出のための最初のフレームワークであるLatent Replay Detection (LRD)を提案する。
私たちの主な貢献は次のとおりです。
1. タスク適応圧縮: 固定PCAとは異なり、各タスクの分布に識別的特徴を保持するために、タスク固有の埋め込みが圧縮を変調するFiLM(Feature-wise Linear Modulation)条件付き学習可能な圧縮を提案する。
2. 空間的外見選択:従来のサンプリングは、検出に不可欠な空間情報を無視する - 我々は、IoU空間における最遠点サンプリングを通して境界ボックスの多様性を最大化する例を選択し、リプレイにおける局所バイアスを防止する。
3. MCU-Deployable System: 我々の潜在リプレイはサンプルあたり150バイト、画像は10KBであり、64KBのバッファは400以上の例を持つことができる。
CORe50(50のクラス、5のタスク)の実験では、RDが初期タスクでmAP@50を達成し、その後のタスクで強いパフォーマンスを維持することが示されている。
タスク適応型FiLM圧縮と空間的多種多様選択は、検出機能を維持するために相乗的に機能する。
STM32H753ZI、ESP32-S3、MAX78000 MCUにデプロイされたRDDは、64KBのメモリ予算で初めて、エッジデバイスでの実用的な連続検出を実現する4.9-97.5msのレイテンシを実現する。
関連論文リスト
- TinyVLM: Zero-Shot Object Detection on Microcontrollers via Vision-Language Distillation with Matryoshka Embeddings [0.14504054468850666]
メモリ1MB未満のリソース制約MCU上でゼロショットオブジェクト検出を可能にする最初のフレームワークであるTinyVLMを提案する。
TinyVLMはCOCO、Flowers102、Food101で、RAMは285KB、フラッシュメモリは892KBである。
論文 参考訳(メタデータ) (2026-02-24T05:32:51Z) - PRISM: Performer RS-IMLE for Single-pass Multisensory Imitation Learning [51.24484551729328]
PRISMは,IMLEのバッチ・グロバル・リジェクション・サンプリングに基づく単一パスポリシーである。
PRISMは、Performerアーキテクチャを用いた線形アテンション発生器と時間的マルチセンサエンコーダを結合する。
7-DoFアームD1を搭載したUnitree Go2を用いたロコマニピュレーションやUR5マニピュレータを用いたテーブルトップ操作など,PRISMの有効性を実証する。
論文 参考訳(メタデータ) (2026-02-02T17:57:37Z) - EdgeFlex-Transformer: Transformer Inference for Edge Devices [2.1130318406254074]
視覚変換器(ViT)の圧縮・高速化を目的とした軽量で効果的な多段最適化パイプラインを提案する。
本手法は,アクティベーションプロファイリング,メモリ対応プルーニング,選択的混合精度実行,アクティベーション対応量子化(AWQ)を組み合わせることで,コストのかかるリトレーニングやタスク固有の微調整を必要とせずに,モデルのメモリフットプリントを削減する。
CIFAR-10の実験では、完全に最適化されたモデルはピークメモリ使用量の76%削減と6倍のレイテンシを実現し、元のFP32ベースラインと比較して精度を維持または改善している。
論文 参考訳(メタデータ) (2025-12-17T21:45:12Z) - MSSDF: Modality-Shared Self-supervised Distillation for High-Resolution Multi-modal Remote Sensing Image Learning [25.381211868583826]
本稿では,高解像度RGB画像,マルチスペクトルデータ,デジタル表面モデル(DSM)を事前学習に用いるマルチモーダル自己教師学習フレームワークを提案する。
提案手法は,シーン分類,セマンティックセグメンテーション,変化検出,オブジェクト検出,深度推定など,典型的なリモートセンシングアプリケーションを対象として,複数のダウンストリームタスクに対して評価を行う。
論文 参考訳(メタデータ) (2025-06-11T02:01:36Z) - CS-Net:Contribution-based Sampling Network for Point Cloud Simplification [50.55658910053004]
ポイントクラウドサンプリングは、様々なビジョンタスクの計算コストとストレージ要求を減らす上で重要な役割を果たす。
最遠点サンプリングのような従来のサンプリング手法では、タスク固有の情報が欠落している。
提案手法では, サンプル処理をTop-k操作として定式化したCS-Netを提案する。
論文 参考訳(メタデータ) (2025-01-18T14:56:09Z) - MutDet: Mutually Optimizing Pre-training for Remote Sensing Object Detection [36.478530086163744]
本研究では,MutDetと呼ばれるリモートセンシングオブジェクト検出のための,Mutally最適化事前学習フレームワークを提案する。
MutDetはオブジェクトの埋め込みを融合し、検出器は最後のエンコーダ層に双方向に機能し、情報インタラクションを強化する。
様々な環境での実験は、新しい最先端の転送性能を示している。
論文 参考訳(メタデータ) (2024-07-13T15:28:15Z) - MCUFormer: Deploying Vision Transformers on Microcontrollers with
Limited Memory [76.02294791513552]
我々はMCUFormerと呼ばれるハードウェア・アルゴリズムの協調最適化手法を提案し、メモリが極端に制限されたマイクロコントローラにビジョントランスフォーマーを配置する。
MCUFormerは320KBのメモリを持つ画像分類のためのImageNet上で73.62%のTop-1精度を実現している。
論文 参考訳(メタデータ) (2023-10-25T18:00:26Z) - Recurrent Vision Transformers for Object Detection with Event Cameras [62.27246562304705]
本稿では,イベントカメラを用いた物体検出のための新しいバックボーンであるリカレントビジョントランス (RVT) を提案する。
RVTは、イベントベースのオブジェクト検出で最先端のパフォーマンスに到達するために、ゼロからトレーニングすることができる。
私たちの研究は、イベントベースのビジョンを超えた研究に役立ち得る効果的なデザイン選択に、新たな洞察をもたらします。
論文 参考訳(メタデータ) (2022-12-11T20:28:59Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-20T11:01:23Z) - A Variational Information Bottleneck Based Method to Compress Sequential
Networks for Human Action Recognition [9.414818018857316]
本稿では,人間行動認識(HAR)に用いるリカレントニューラルネットワーク(RNN)を効果的に圧縮する手法を提案する。
変分情報ボトルネック(VIB)理論に基づくプルーニング手法を用いて,RNNの逐次セルを流れる情報の流れを小さなサブセットに制限する。
我々は、圧縮を大幅に改善する特定のグループ・ラッソ正規化手法とプルーニング手法を組み合わせる。
提案手法は,UCF11上での動作認識の精度に比較して,最も近い競合に比べて70倍以上の圧縮を実現する。
論文 参考訳(メタデータ) (2020-10-03T12:41:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。