論文の概要: Recurrent Vision Transformers for Object Detection with Event Cameras
- arxiv url: http://arxiv.org/abs/2212.05598v1
- Date: Sun, 11 Dec 2022 20:28:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 16:38:35.453624
- Title: Recurrent Vision Transformers for Object Detection with Event Cameras
- Title(参考訳): イベントカメラを用いた物体検出用リカレントビジョントランス
- Authors: Mathias Gehrig and Davide Scaramuzza
- Abstract要約: イベントカメラは、高ダイナミックレンジでミリ秒以下のレイテンシで視覚情報を提供し、動きのぼけに対して強い堅牢性を持つ。
本稿では,イベントカメラを用いた物体検出のための新しいバックボーンであるリカレントビジョントランス (RVT) を提案する。
私たちの研究は、イベントベースのビジョンを超えた研究に役立ちそうな、効果的なデザイン選択に対する新たな洞察をもたらします。
- 参考スコア(独自算出の注目度): 62.27246562304705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Recurrent Vision Transformers (RVTs), a novel backbone for object
detection with event cameras. Event cameras provide visual information with
sub-millisecond latency at a high-dynamic range and with strong robustness
against motion blur. These unique properties offer great potential for
low-latency object detection and tracking in time-critical scenarios. Prior
work in event-based vision has achieved outstanding detection performance but
at the cost of substantial inference time, typically beyond 40 milliseconds. By
revisiting the high-level design of recurrent vision backbones, we reduce
inference time by a factor of 5 while retaining similar performance. To achieve
this, we explore a multi-stage design that utilizes three key concepts in each
stage: First, a convolutional prior that can be regarded as a conditional
positional embedding. Second, local- and dilated global self-attention for
spatial feature interaction. Third, recurrent temporal feature aggregation to
minimize latency while retaining temporal information. RVTs can be trained from
scratch to reach state-of-the-art performance on event-based object detection -
achieving an mAP of 47.5% on the Gen1 automotive dataset. At the same time,
RVTs offer fast inference (13 ms on a T4 GPU) and favorable parameter
efficiency (5 times fewer than prior art). Our study brings new insights into
effective design choices that could be fruitful for research beyond event-based
vision.
- Abstract(参考訳): イベントカメラを用いた物体検出のための新しいバックボーンであるリカレントビジョントランス (RVT) を提案する。
イベントカメラは、高ダイナミックレンジでミリ秒以下のレイテンシで視覚情報を提供する。
これらのユニークな特性は、時間クリティカルなシナリオにおける低レイテンシオブジェクトの検出と追跡に大きな可能性を提供します。
イベントベースのビジョンでの以前の作業は、優れた検出性能を達成しているが、実質的な推論時間(通常は40ミリ秒以上)のコストで達成されている。
リカレントビジョンバックボーンのハイレベルな設計を再検討することにより、同様のパフォーマンスを維持しつつ推論時間を5倍に短縮する。
これを実現するために,各段階において3つの重要な概念,すなわち条件付き位置埋め込みと見なすことができる畳み込み前処理を用いる多段階設計を探索する。
第二に、局所的および拡張的グローバルな自己注意による空間的特徴の相互作用
第3に、時間情報を保持しながらレイテンシを最小限に抑えるために、繰り返し時間的特徴集約。
RVTは、Gen1オートマチックデータセット上で47.5%のmAPを達成するイベントベースのオブジェクト検出において、最先端のパフォーマンスに到達するために、ゼロからトレーニングすることができる。
同時にRVTは高速な推論(T4 GPUで13ミリ秒)と良好なパラメータ効率(先行技術より5倍少ない)を提供する。
私たちの研究は、イベントベースのビジョンを超えた研究に実りある効果的な設計選択に新たな洞察をもたらします。
関連論文リスト
- Future Does Matter: Boosting 3D Object Detection with Temporal Motion Estimation in Point Cloud Sequences [25.74000325019015]
クロスフレーム動作予測情報を用いた時空間特徴学習を容易にするために,新しいLiDAR 3Dオブジェクト検出フレームワークLiSTMを導入する。
我々は,本フレームワークが優れた3次元検出性能を実現することを示すため,アグリゲーションとnuScenesデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-09-06T16:29:04Z) - MambaPupil: Bidirectional Selective Recurrent model for Event-based Eye tracking [50.26836546224782]
事象に基づく視線追跡は、高時間分解能と低冗長性で非常に有望である。
点眼、固定、ササード、スムーズな追跡を含む眼球運動パターンの多様性と急激さは、眼球運動の局所化に重要な課題を提起する。
本稿では、文脈時空間情報を完全に活用するための双方向の長期シーケンスモデリングと時間変化状態選択機構を提案する。
論文 参考訳(メタデータ) (2024-04-18T11:09:25Z) - SpikeMOT: Event-based Multi-Object Tracking with Sparse Motion Features [52.213656737672935]
SpikeMOTはイベントベースのマルチオブジェクトトラッカーである。
SpikeMOTはスパイクニューラルネットワークを使用して、オブジェクトに関連するイベントストリームからスパーステンポラルな特徴を抽出する。
論文 参考訳(メタデータ) (2023-09-29T05:13:43Z) - OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection [29.530177591608297]
マルチビュー3Dオブジェクト検出は、高い有効性と低コストのため、自動運転において人気を博している。
現在の最先端検出器のほとんどは、クエリベースのバードアイビュー(BEV)パラダイムに従っている。
本稿では,移動対象の時間的・空間的手がかりをより効率的に彫ることができるOCBEVを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:59:48Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - Event-based YOLO Object Detection: Proof of Concept for Forward
Perception System [0.3058685580689604]
本研究では,道路側物体検出にニューロモルフィック事象データを活用することに焦点を当てた。
本稿では、イベントシミュレートされたA2D2データセットを2つのYOLOv5ネットワークで手動でアノテートし、トレーニングする。
論文 参考訳(メタデータ) (2022-12-14T12:12:29Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。