論文の概要: Enhancing Traffic Object Detection in Variable Illumination with RGB-Event Fusion
- arxiv url: http://arxiv.org/abs/2311.00436v2
- Date: Sun, 15 Sep 2024 11:47:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 03:37:26.048915
- Title: Enhancing Traffic Object Detection in Variable Illumination with RGB-Event Fusion
- Title(参考訳): RGBイベント融合による可変照明における交通物体検出の促進
- Authors: Zhanwen Liu, Nan Yang, Yang Wang, Yuke Li, Xiangmo Zhao, Fei-Yue Wang,
- Abstract要約: 可変照明下での交通物体検出は,従来のフレームベースカメラのダイナミックレンジの制限による情報損失が原因で困難である。
本研究では、イベントストリームからシャープで完全なオブジェクト構造を抽出する新しい構造対応フュージョンネットワーク(SFNet)を提案する。
提案するSFNetは,従来のカメラの知覚的境界を克服し,mAP50では8.0%,mAP50:95では5.9%,フレームベースの手法より優れている。
- 参考スコア(独自算出の注目度): 29.117211261620934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traffic object detection under variable illumination is challenging due to the information loss caused by the limited dynamic range of conventional frame-based cameras. To address this issue, we introduce bio-inspired event cameras and propose a novel Structure-aware Fusion Network (SFNet) that extracts sharp and complete object structures from the event stream to compensate for the lost information in images through cross-modality fusion, enabling the network to obtain illumination-robust representations for traffic object detection. Specifically, to mitigate the sparsity or blurriness issues arising from diverse motion states of traffic objects in fixed-interval event sampling methods, we propose the Reliable Structure Generation Network (RSGNet) to generate Speed Invariant Frames (SIF), ensuring the integrity and sharpness of object structures. Next, we design a novel Adaptive Feature Complement Module (AFCM) which guides the adaptive fusion of two modality features to compensate for the information loss in the images by perceiving the global lightness distribution of the images, thereby generating illumination-robust representations. Finally, considering the lack of large-scale and high-quality annotations in the existing event-based object detection datasets, we build a DSEC-Det dataset, which consists of 53 sequences with 63,931 images and more than 208,000 labels for 8 classes. Extensive experimental results demonstrate that our proposed SFNet can overcome the perceptual boundaries of conventional cameras and outperform the frame-based method by 8.0% in mAP50 and 5.9% in mAP50:95. Our code and dataset will be available at https://github.com/YN-Yang/SFNet.
- Abstract(参考訳): 可変照明下での交通物体検出は,従来のフレームベースカメラのダイナミックレンジの制限による情報損失が原因で困難である。
この問題に対処するために,バイオインスパイアされたイベントカメラを導入し,イベントストリームからシャープで完全なオブジェクト構造を抽出し,モダリティ融合により画像中の失われた情報を補償する新しいSFNetを提案する。
具体的には、固定区間イベントサンプリング法において、交通物体の多様な動作状態から生じる空間的・曖昧性の問題を軽減するために、高速不変フレーム(SIF)を生成するための信頼性構造生成ネットワーク(RSGNet)を提案する。
次に,適応的特徴補完モジュール (AFCM) を設計し, 画像のグローバルな光度分布を知覚することで, 画像中の情報損失を補償し, 照度ロスの表現を生成する。
最後に、既存のイベントベースオブジェクト検出データセットに大規模で高品質なアノテーションが欠如していることを踏まえ、63,931イメージの53のシーケンスと8クラスの208,000以上のラベルからなるDSEC-Detデータセットを構築します。
その結果,提案するSFNetは従来のカメラの知覚的境界を克服し,mAP50では8.0%,mAP50:95では5.9%,フレームベースでは8.0%の精度で性能を向上できることがわかった。
私たちのコードとデータセットはhttps://github.com/YN-Yang/SFNet.comで公開されます。
関連論文リスト
- Embracing Events and Frames with Hierarchical Feature Refinement Network for Object Detection [17.406051477690134]
イベントカメラはスパースと非同期のイベントを出力し、これらの問題を解決する潜在的な解決策を提供する。
イベントフレーム融合のための新しい階層的特徴改善ネットワークを提案する。
本手法は, フレーム画像に15種類の汚損タイプを導入する際に, 極めて優れたロバスト性を示す。
論文 参考訳(メタデータ) (2024-07-17T14:09:46Z) - Enhanced Automotive Object Detection via RGB-D Fusion in a DiffusionDet Framework [0.0]
視覚に基づく自律走行には、信頼性と効率的な物体検出が必要である。
本研究では、単眼カメラと深度センサからのデータ融合を利用してRGBと深度(RGB-D)データを提供するDiffusionDetベースのフレームワークを提案する。
RGB画像のテクスチャ特徴と色特徴とLiDARセンサの空間深度情報を統合することにより,自動車目標の物体検出を大幅に強化する特徴融合が提案されている。
論文 参考訳(メタデータ) (2024-06-05T10:24:00Z) - Deformable Convolutions and LSTM-based Flexible Event Frame Fusion
Network for Motion Deblurring [7.187030024676791]
イベントカメラは、非同期データシーケンスを生成するという点で、従来のRGBカメラとは異なる。
RGBカメラは固定レートですべてのフレームをキャプチャするが、イベントカメラはシーンの変化のみをキャプチャし、スパースと非同期のデータ出力をもたらす。
最近のCNNベースのデブロアリングソリューションは、イベントデータの蓄積に基づいて、複数の2次元イベントフレームを生成する。
特に、照明条件や現場における動きの速い物体の存在といった要因によって露光時間が異なるシナリオでは特に有用である。
論文 参考訳(メタデータ) (2023-06-01T15:57:12Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - High-resolution Iterative Feedback Network for Camouflaged Object
Detection [128.893782016078]
カモフラージュされたオブジェクトを背景に視覚的に同化させることは、オブジェクト検出アルゴリズムにとって難しい。
エッジやバウンダリのぼやけた視界を生じさせる細部劣化を避けるために,高分解能テクスチャの詳細を抽出することを目的としている。
我々は,高解像度特徴量による低解像度表現を反復的フィードバック方式で洗練する新しいHitNetを提案する。
論文 参考訳(メタデータ) (2022-03-22T11:20:21Z) - TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with
Transformers [49.689566246504356]
そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。
TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。
提案手法を3次元トラッキングタスクに拡張し,nuScenesトラッキングのリーダーボードにおける第1位を達成する。
論文 参考訳(メタデータ) (2022-03-22T07:15:13Z) - MEFNet: Multi-scale Event Fusion Network for Motion Deblurring [62.60878284671317]
従来のフレームベースのカメラは、長時間露光のために必然的に動きがぼやけている。
バイオインスパイアされたカメラの一種として、イベントカメラは、高時間分解能で非同期な方法で強度変化を記録する。
本稿では,イベントベースの画像劣化問題を再考し,これをエンドツーエンドの2段階画像復元ネットワークに展開する。
論文 参考訳(メタデータ) (2021-11-30T23:18:35Z) - Fusion-FlowNet: Energy-Efficient Optical Flow Estimation using Sensor
Fusion and Deep Fused Spiking-Analog Network Architectures [7.565038387344594]
本稿では,フレームベースとイベントベースの両方のセンサを用いたエネルギー効率の高い光フロー推定のためのセンサ融合フレームワークを提案する。
我々のネットワークは、高価なビデオアノテーションを避けるために教師なし学習を用いてエンドツーエンドで訓練されている。
論文 参考訳(メタデータ) (2021-03-19T02:03:33Z) - Dense Attention Fluid Network for Salient Object Detection in Optical
Remote Sensing Images [193.77450545067967]
光リモートセンシング画像(RSI)における有意物体検出のためのエンド・ツー・エンドDense Attention Fluid Network(DAFNet)を提案する。
GCA(Global Context-Aware Attention)モジュールは、長距離の意味的関係を適応的にキャプチャするために提案される。
我々は、2000枚の画像とピクセルワイドなサリエンシアノテーションを含むSODのための新しい、挑戦的な光学RSIデータセットを構築した。
論文 参考訳(メタデータ) (2020-11-26T06:14:10Z) - Feature Flow: In-network Feature Flow Estimation for Video Object
Detection [56.80974623192569]
光の流れはコンピュータビジョンのタスクで広く使われ、ピクセルレベルのモーション情報を提供する。
一般的なアプローチは、ニューラルネットワークへの前向き光学フローと、タスクデータセット上のこのネットワークの微調整である。
ビデオオブジェクト検出のための textbfIn-network textbfFeature textbfFlow 推定モジュールを用いた新しいネットワーク (IFF-Net) を提案する。
論文 参考訳(メタデータ) (2020-09-21T07:55:50Z) - Dual Semantic Fusion Network for Video Object Detection [35.175552056938635]
外部ガイダンスのない統合融合フレームワークにおいて,フレームレベルとインスタンスレベルの両方のセマンティクスをフル活用するためのデュアルセマンティクス・フュージョン・ネットワーク(DSFNet)を提案する。
提案したDSFNetは、多粒度融合によりより堅牢な特徴を生成でき、外部ガイダンスの不安定性の影響を避けることができる。
論文 参考訳(メタデータ) (2020-09-16T06:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。