論文の概要: MR2-ByteTrack: CNN and Transformer-based Video Object Detection for AI-augmented Embedded Vision Sensor Nodes
- arxiv url: http://arxiv.org/abs/2605.15423v1
- Date: Thu, 14 May 2026 21:13:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.108831
- Title: MR2-ByteTrack: CNN and Transformer-based Video Object Detection for AI-augmented Embedded Vision Sensor Nodes
- Title(参考訳): MR2-ByteTrack:CNNとトランスフォーマーによるAI内蔵型視覚センサノード用ビデオオブジェクト検出
- Authors: Luca Bompani, Manuele Rusci, Luca Benini, Daniele Palossi, Francesco Conti,
- Abstract要約: MCUベースの組み込み視覚ノードに適したビデオオブジェクト検出(VOD)手法であるMulti-Resolution Rescored ByteTrack(MR2-ByteTrack)を導入する。
MR2-ByteTrackは、フル解像度と低解像度の推論を交互に行うことで計算コストを削減する。
本手法では,全解像度画像のみを処理した場合と比較して最大55%の省エネ効果が得られた。
- 参考スコア(独自算出の注目度): 20.287412834472416
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern smart vision sensors need on-device intelligence to process video streams, as cloud computing is often impractical due to bandwidth, latency, and privacy constraints. However, these sensory systems typically rely on ultra-low-power microcontrollers (MCUs) with limited memory and compute, making conventional video object detection methods, which require feature storage or multi-frame buffering, unfeasible. To address this challenge, we introduce Multi-Resolution Rescored ByteTrack (MR2-ByteTrack), a Video Object Detection (VOD) method tailored for MCU-based embedded vision nodes. MR2-ByteTrack reduces computational cost by alternating between full- and low-resolution inference, while linking detections across frames via ByteTrack and correcting misclassifications through the Rescore algorithm, which applies probability union rules to aggregate detection confidence scores across frames. We apply our approach to both a CNN-based detector and a Transformer-based model, demonstrating its generality across architectures with fundamentally different spatial processing. Experiments on ImageNetVID demonstrate that MR2-ByteTrack maintains accuracy, achieving mAP scores of up to 49.0 for the CNN-based models and 48.7 for the Transformer, while reducing multiply-accumulate operations by as much as 53\% for the CNNs and 32\% for the Transformer. When deployed on GAP9, an ultra-low-power RISC-V multicore MCU, our method yields up to 55\% energy savings compared to processing only full-resolution images, enabling the first real-time Transformer-based VOD on an MCU-class embedded vision node. Code available at https://github.com/Bomps4/Multi_Resolution_Rescored_ByteTrack/tree/IEEE_Access
- Abstract(参考訳): 現代のスマートビジョンセンサーは、ビデオストリームを処理するためにデバイス上のインテリジェンスを必要としている。
しかし、これらのセンサーシステムは通常、メモリと計算に制限のある超低消費電力マイクロコントローラ(MCU)に依存しており、機能ストレージやマルチフレームバッファを必要とする従来のビデオオブジェクト検出手法は実現不可能である。
この課題に対処するために、MCUベースの組み込み視覚ノードに適したビデオオブジェクト検出(VOD)手法であるMulti-Resolution Rescored ByteTrack(MR2-ByteTrack)を導入する。
MR2-ByteTrackは、フルレゾリューションと低レゾリューションの推論を交互に行い、ByteTrackを介して検出をリンクし、Rescoreアルゴリズムを通じて誤分類を修正することで計算コストを削減する。
我々は、CNNベースの検出器とTransformerベースのモデルの両方に適用し、空間処理が根本的に異なるアーキテクチャ間の一般化を実証する。
ImageNetVIDの実験では、MR2-ByteTrackは精度を維持し、CNNベースのモデルでは最大49.0、Transformerでは48.7、CNNでは最大53\%、Transformerでは最大32\%である。
超低消費電力RISC-VマルチコアMCUであるGAP9にデプロイすると、本手法はフル解像度画像のみを処理した場合に比べて最大55%の省エネ効果が得られ、MCUクラスの組込み視覚ノード上で最初のリアルタイムトランスフォーマーベースのVODを実現する。
https://github.com/Bomps4/Multi_Resolution_Rescored_ByteTrack/tree/IEEE_Accessで公開されているコード
関連論文リスト
- Rapid Salient Object Detection with Difference Convolutional Neural Networks [49.838283141381716]
本稿では,資源制約のあるデバイスにSODをリアルタイムに展開する上での課題について述べる。
SODにおける従来の知恵と現代のCNNの表現力を組み合わせたネットワーク設計を提案する。
論文 参考訳(メタデータ) (2025-07-01T20:41:05Z) - Multi-resolution Rescored ByteTrack for Video Object Detection on Ultra-low-power Embedded Systems [13.225654514930595]
Multi-Resolution Rescored Byte-Track (MR2-ByteTrack)は、超低消費電力組み込みプロセッサのための新しいビデオオブジェクト検出フレームワークである。
MR2-ByteTrackは、市販のDeep Neural Networkベースのオブジェクト検出器の平均計算負荷を最大2.25$times$に削減する。
GAP9マイクロコントローラでは,平均精度が2.16%,遅延が43%向上した。
論文 参考訳(メタデータ) (2024-04-17T15:45:49Z) - MCUFormer: Deploying Vision Transformers on Microcontrollers with
Limited Memory [76.02294791513552]
我々はMCUFormerと呼ばれるハードウェア・アルゴリズムの協調最適化手法を提案し、メモリが極端に制限されたマイクロコントローラにビジョントランスフォーマーを配置する。
MCUFormerは320KBのメモリを持つ画像分類のためのImageNet上で73.62%のTop-1精度を実現している。
論文 参考訳(メタデータ) (2023-10-25T18:00:26Z) - Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual
Grounding [27.568879624013576]
マルチモーダルトランスは、視覚的な接地のために画像とテキストを整列させる高い能力と柔軟性を示す。
既存のエンコーダのみの接地フレームワークは、2次時間複雑性を持つ自己注意操作のために重い計算に悩まされている。
本稿では,動的MDETR(Dynamic Mutilmodal DETR)について述べる。
論文 参考訳(メタデータ) (2022-09-28T09:43:02Z) - TransVOD: End-to-end Video Object Detection with Spatial-Temporal
Transformers [96.981282736404]
時空間トランスフォーマアーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。
提案した TransVOD++ は,90.0% mAP の ImageNet VID の精度で,最先端のレコードを新たに設定する。
提案したTransVOD Liteは,約30FPSで動作する場合に,83.7%のmAPで最高の速度と精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-01-13T16:17:34Z) - Self-supervised Video Transformer [46.295395772938214]
あるビデオから、空間サイズやフレームレートの異なる局所的、グローバルなビューを作成します。
我々の自己監督的目的は、同じビデオが時間外であることを示す異なるビューの特徴と一致させることです。
このアプローチは4つのアクションベンチマークでうまく動作し、小さなバッチサイズでより高速に収束する。
論文 参考訳(メタデータ) (2021-12-02T18:59:02Z) - FQ-ViT: Fully Quantized Vision Transformer without Retraining [13.82845665713633]
本稿では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。
完全に量子化された視覚変換器上で、我々は初めて精度の劣化(1%)を達成した。
論文 参考訳(メタデータ) (2021-11-27T06:20:53Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。