論文の概要: RGB-Event Fusion for Moving Object Detection in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2209.08323v1
- Date: Sat, 17 Sep 2022 12:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 19:33:02.650333
- Title: RGB-Event Fusion for Moving Object Detection in Autonomous Driving
- Title(参考訳): 自律走行における移動物体検出のためのRGBイベント融合
- Authors: Zhuyun Zhou, Zongwei Wu, R\'emi Boutteau, Fan Yang, C\'edric
Demonceaux, Dominique Ginhac
- Abstract要約: 移動物体検出(MOD)は安全な自動運転を実現するための重要な視覚課題である。
センサ技術の最近の進歩、特にイベントカメラは、移動物体をより良くモデル化するための従来のカメラアプローチを自然に補完することができる。
我々は、より堅牢なMODを実現するために、2つの相補的モダリティを共同で活用する新しいRGB-Event fusion NetworkであるRENetを提案する。
- 参考スコア(独自算出の注目度): 3.5397758597664306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Moving Object Detection (MOD) is a critical vision task for successfully
achieving safe autonomous driving. Despite plausible results of deep learning
methods, most existing approaches are only frame-based and may fail to reach
reasonable performance when dealing with dynamic traffic participants. Recent
advances in sensor technologies, especially the Event camera, can naturally
complement the conventional camera approach to better model moving objects.
However, event-based works often adopt a pre-defined time window for event
representation, and simply integrate it to estimate image intensities from
events, neglecting much of the rich temporal information from the available
asynchronous events. Therefore, from a new perspective, we propose RENet, a
novel RGB-Event fusion Network, that jointly exploits the two complementary
modalities to achieve more robust MOD under challenging scenarios for
autonomous driving. Specifically, we first design a temporal multi-scale
aggregation module to fully leverage event frames from both the RGB exposure
time and larger intervals. Then we introduce a bi-directional fusion module to
attentively calibrate and fuse multi-modal features. To evaluate the
performance of our network, we carefully select and annotate a sub-MOD dataset
from the commonly used DSEC dataset. Extensive experiments demonstrate that our
proposed method performs significantly better than the state-of-the-art
RGB-Event fusion alternatives.
- Abstract(参考訳): 移動物体検出(MOD)は安全な自動運転を実現するための重要な視覚課題である。
ディープラーニング手法の有効な結果にもかかわらず、既存のアプローチのほとんどはフレームベースでしかなく、ダイナミックなトラフィック参加者を扱う際に適切なパフォーマンスに到達できない可能性がある。
センサ技術の最近の進歩、特にイベントカメラは、移動物体をより良くモデル化するための従来のカメラアプローチを自然に補完することができる。
しかし、イベントベースの作業は、しばしばイベント表現のために事前に定義された時間ウィンドウを採用し、単にイベントから画像強度を推定するために統合し、利用可能な非同期イベントからの豊富な時間情報を無視する。
そこで,新しい視点からRGB-Event融合ネットワークRENetを提案する。このネットワークは2つの相補的モダリティを共同で活用し,自律運転の挑戦シナリオ下でより堅牢なMODを実現する。
具体的には、まず、RGB露光時間とより大きな間隔の両方からイベントフレームをフル活用する、時間的マルチスケールアグリゲーションモジュールを設計する。
次に,両方向融合モジュールを導入し,マルチモーダル特徴のキャリブレーションとヒューズを行う。
ネットワークの性能を評価するために、よく使われるDSECデータセットから、サブMODデータセットを慎重に選択し、注釈付けする。
広範な実験により,提案手法は最先端のrgb-event fusionよりも優れた性能を示した。
関連論文リスト
- MambaPupil: Bidirectional Selective Recurrent model for Event-based Eye tracking [50.26836546224782]
事象に基づく視線追跡は、高時間分解能と低冗長性で非常に有望である。
点眼、固定、ササード、スムーズな追跡を含む眼球運動パターンの多様性と急激さは、眼球運動の局所化に重要な課題を提起する。
本稿では、文脈時空間情報を完全に活用するための双方向の長期シーケンスモデリングと時間変化状態選択機構を提案する。
論文 参考訳(メタデータ) (2024-04-18T11:09:25Z) - Cross-Modal Object Tracking via Modality-Aware Fusion Network and A
Large-Scale Dataset [20.729414075628814]
我々は、Modality-Aware Fusion Network (MAFNet) と呼ばれる適応型クロスモーダル物体追跡アルゴリズムを提案する。
MAFNetは、適応重み付け機構を用いて、RGBとNIRの両方からの情報を効率的に統合する。
論文 参考訳(メタデータ) (2023-12-22T05:22:33Z) - SpikeMOT: Event-based Multi-Object Tracking with Sparse Motion Features [52.213656737672935]
SpikeMOTはイベントベースのマルチオブジェクトトラッカーである。
SpikeMOTはスパイクニューラルネットワークを使用して、オブジェクトに関連するイベントストリームからスパーステンポラルな特徴を抽出する。
論文 参考訳(メタデータ) (2023-09-29T05:13:43Z) - Chasing Day and Night: Towards Robust and Efficient All-Day Object Detection Guided by an Event Camera [8.673063170884591]
EOLOは、RGBとイベントモダリティの両方を融合させることで、堅牢で効率的な全日検出を実現する、新しいオブジェクト検出フレームワークである。
我々のEOLOフレームワークは、イベントの非同期特性を効率的に活用するために、軽量スパイキングニューラルネットワーク(SNN)に基づいて構築されている。
論文 参考訳(メタデータ) (2023-09-17T15:14:01Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - SODFormer: Streaming Object Detection with Transformer Using Events and
Frames [31.293847706713052]
DAカメラは、非同期イベントとフレームの相補的な2つのモードをストリーミングする。
本稿では,SODFormerを用いた新しいストリーミングオブジェクト検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-08T04:53:52Z) - Event-Free Moving Object Segmentation from Moving Ego Vehicle [88.33470650615162]
動的シーンにおけるオブジェクトセグメンテーション(MOS)の移動は、自律運転において重要で困難だが、未調査の研究テーマである。
ほとんどのセグメンテーション法は、光学フローマップから得られるモーションキューを利用する。
我々は,光学的フローに頼らずにリッチなモーションキューを提供する,より優れた映像理解のためのイベントカメラを活用することを提案する。
論文 参考訳(メタデータ) (2023-04-28T23:43:10Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - A Hybrid Neuromorphic Object Tracking and Classification Framework for
Real-time Systems [5.959466944163293]
本稿では,イベントベースカメラを用いた物体追跡と分類のためのリアルタイムハイブリッドニューロモルフィックフレームワークを提案する。
イベント・バイ・イベント処理の従来のアプローチとは異なり、この作業では混合フレームとイベント・アプローチを使用して高性能な省エネを実現している。
論文 参考訳(メタデータ) (2020-07-21T07:11:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。