論文の概要: Chasing Day and Night: Towards Robust and Efficient All-Day Object Detection Guided by an Event Camera
- arxiv url: http://arxiv.org/abs/2309.09297v2
- Date: Tue, 19 Mar 2024 03:25:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 00:40:38.426910
- Title: Chasing Day and Night: Towards Robust and Efficient All-Day Object Detection Guided by an Event Camera
- Title(参考訳): 昼夜のチャット: イベントカメラで誘導されるロバストで効率的な全日物検出に向けて
- Authors: Jiahang Cao, Xu Zheng, Yuanhuiyi Lyu, Jiaxu Wang, Renjing Xu, Lin Wang,
- Abstract要約: EOLOは、RGBとイベントモダリティの両方を融合させることで、堅牢で効率的な全日検出を実現する、新しいオブジェクト検出フレームワークである。
我々のEOLOフレームワークは、イベントの非同期特性を効率的に活用するために、軽量スパイキングニューラルネットワーク(SNN)に基づいて構築されている。
- 参考スコア(独自算出の注目度): 8.673063170884591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to detect objects in all lighting (i.e., normal-, over-, and under-exposed) conditions is crucial for real-world applications, such as self-driving.Traditional RGB-based detectors often fail under such varying lighting conditions.Therefore, recent works utilize novel event cameras to supplement or guide the RGB modality; however, these methods typically adopt asymmetric network structures that rely predominantly on the RGB modality, resulting in limited robustness for all-day detection. In this paper, we propose EOLO, a novel object detection framework that achieves robust and efficient all-day detection by fusing both RGB and event modalities. Our EOLO framework is built based on a lightweight spiking neural network (SNN) to efficiently leverage the asynchronous property of events. Buttressed by it, we first introduce an Event Temporal Attention (ETA) module to learn the high temporal information from events while preserving crucial edge information. Secondly, as different modalities exhibit varying levels of importance under diverse lighting conditions, we propose a novel Symmetric RGB-Event Fusion (SREF) module to effectively fuse RGB-Event features without relying on a specific modality, thus ensuring a balanced and adaptive fusion for all-day detection. In addition, to compensate for the lack of paired RGB-Event datasets for all-day training and evaluation, we propose an event synthesis approach based on the randomized optical flow that allows for directly generating the event frame from a single exposure image. We further build two new datasets, E-MSCOCO and E-VOC based on the popular benchmarks MSCOCO and PASCAL VOC. Extensive experiments demonstrate that our EOLO outperforms the state-of-the-art detectors,e.g.,RENet,by a substantial margin (+3.74% mAP50) in all lighting conditions.Our code and datasets will be available at https://vlislab22.github.io/EOLO/
- Abstract(参考訳): すべての照明条件(通常、過露光、過露光など)の物体を検出する能力は、自動運転車のような現実の用途には不可欠であり、先進的なRGBベースの検出器は、このような様々な照明条件下ではしばしば失敗する。近年の研究では、新しいイベントカメラを使用してRGBのモダリティを補う、またはガイドするが、これらの手法は通常、RGBのモダリティに大きく依存する非対称ネットワーク構造を採用しており、全日検出の堅牢性に限界がある。
本稿では,RGBとイベントモダリティの両方を融合させることで,堅牢かつ効率的な全日検出を実現する新しいオブジェクト検出フレームワークであるEOLOを提案する。
我々のEOLOフレームワークは、イベントの非同期特性を効率的に活用するために、軽量スパイキングニューラルネットワーク(SNN)に基づいて構築されている。
イベントの時間的アテンション(ETA)モジュールを導入し、重要なエッジ情報を保持しながら、イベントから高い時間的情報を学ぶ。
第2に、様々なモードが様々な照明条件下で様々な重要性を示すため、特定のモダリティに頼ることなくRGBイベント機能を効果的に融合するSymmetric RGB-Event Fusion (SREF) モジュールを提案する。
さらに,全日連続トレーニングと評価のためのRGB-Eventデータセットの欠如を補うために,単一露光画像からイベントフレームを直接生成可能なランダム化光学フローに基づくイベント合成手法を提案する。
さらに、人気のあるベンチマークであるMSCOCOとPASCAL VOCに基づいて、E-MSCOCOとE-VOCという2つの新しいデータセットを構築します。
大規模な実験では、EOLOはすべての照明条件において、最先端の検出器であるRENetよりも相当なマージン(+3.74% mAP50)を上回り、我々のコードとデータセットはhttps://vlislab22.github.io/EOLO/で利用可能である。
関連論文リスト
- TENet: Targetness Entanglement Incorporating with Multi-Scale Pooling and Mutually-Guided Fusion for RGB-E Object Tracking [30.89375068036783]
既存のアプローチでは、従来の外観モデルを用いて、RGB-E追跡のためのイベント特徴抽出を行う。
本稿では,イベントデータ固有の特徴を認識可能な高品質な特徴表現を実現するために,イベントバックボーン(Pooler)を提案する。
提案手法は,2つの広く使用されているRGB-E追跡データセットにおいて,最先端トラッカーを著しく上回っている。
論文 参考訳(メタデータ) (2024-05-08T12:19:08Z) - Implicit Event-RGBD Neural SLAM [54.74363487009845]
神経性SLAMは近年顕著な進歩を遂げている。
既存の手法は、非理想的なシナリオにおいて重大な課題に直面します。
本稿では,最初のイベントRGBD暗黙的ニューラルSLAMフレームワークであるEN-SLAMを提案する。
論文 参考訳(メタデータ) (2023-11-18T08:48:58Z) - Tensor Factorization for Leveraging Cross-Modal Knowledge in
Data-Constrained Infrared Object Detection [22.60228799622782]
赤外線画像における物体検出のボトルネックは、十分なラベル付きトレーニングデータがないことである。
我々は、RGBモードにおけるモデル性能を保ちながら、RGBモードからオブジェクト検出器をIRモードにスケールするために、RGBモードからの手がかりを活用しようとしている。
まず、これらの因子行列をRGBモードで事前トレーニングし、多くのトレーニングデータが存在すると仮定した後、IRモードでトレーニングするためのトレーニング可能なパラメータをわずかに増やして過度な適合を避ける。
論文 参考訳(メタデータ) (2023-09-28T16:55:52Z) - Deformable Neural Radiance Fields using RGB and Event Cameras [65.40527279809474]
我々は,RGBとイベントカメラを用いた変形可能なニューラル放射場をモデル化する新しい手法を開発した。
提案手法は,イベントの非同期ストリームと疎RGBフレームを用いる。
現実的にレンダリングされたグラフィックと実世界のデータセットの両方で実施された実験は、提案手法の有益性を実証している。
論文 参考訳(メタデータ) (2023-09-15T14:19:36Z) - Attentive Multimodal Fusion for Optical and Scene Flow [24.08052492109655]
既存の方法は通常、RGB画像のみに依存するか、後段のモダリティを融合させる。
本稿では,センサモード間の早期情報融合を可能にするFusionRAFTという新しいディープニューラルネットワーク手法を提案する。
提案手法は,RGB画像に影響を及ぼすノイズや低照度条件の存在下での堅牢性の向上を示す。
論文 参考訳(メタデータ) (2023-07-28T04:36:07Z) - Revisiting Event-based Video Frame Interpolation [49.27404719898305]
ダイナミックビジョンセンサーやイベントカメラは、ビデオフレームに豊富な補完情報を提供する。
イベントからの光の流れを推定することは、RGB情報より間違いなく困難である。
イベントベースの中間フレーム合成を複数の単純化段階において漸進的に行う分割・対数戦略を提案する。
論文 参考訳(メタデータ) (2023-07-24T06:51:07Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - RGB-Event Fusion for Moving Object Detection in Autonomous Driving [3.5397758597664306]
移動物体検出(MOD)は安全な自動運転を実現するための重要な視覚課題である。
センサ技術の最近の進歩、特にイベントカメラは、移動物体をより良くモデル化するための従来のカメラアプローチを自然に補完することができる。
我々は、より堅牢なMODを実現するために、2つの相補的モダリティを共同で活用する新しいRGB-Event fusion NetworkであるRENetを提案する。
論文 参考訳(メタデータ) (2022-09-17T12:59:08Z) - Meta-UDA: Unsupervised Domain Adaptive Thermal Object Detection using
Meta-Learning [64.92447072894055]
赤外線(IR)カメラは、照明条件や照明条件が悪ければ頑丈である。
既存のUDA手法を改善するためのアルゴリズムメタ学習フレームワークを提案する。
KAISTおよびDSIACデータセットのための最先端熱検出器を作成した。
論文 参考訳(メタデータ) (2021-10-07T02:28:18Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。