論文の概要: Beyond conventional vision: RGB-event fusion for robust object detection in dynamic traffic scenarios
- arxiv url: http://arxiv.org/abs/2508.10704v1
- Date: Thu, 14 Aug 2025 14:48:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.363381
- Title: Beyond conventional vision: RGB-event fusion for robust object detection in dynamic traffic scenarios
- Title(参考訳): 従来のビジョンを超えて:動的交通シナリオにおけるロバストな物体検出のためのRGB-event融合
- Authors: Zhanwen Liu, Yujing Sun, Yang Wang, Nan Yang, Shengbo Eben Li, Xiangmo Zhao,
- Abstract要約: 従来のRGBカメラのダイナミックレンジは、大域的なコントラストを減少させ、高周波の詳細が失われる。
そこで本研究では,光の難易度を最適化した移動キュー融合ネットワーク(MCFNet)を提案する。
MCFNetは、様々な低照度および高速移動トラフィックシナリオにおいて、既存の手法よりも大幅に優れています。
- 参考スコア(独自算出の注目度): 23.41380544271609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dynamic range limitation of conventional RGB cameras reduces global contrast and causes loss of high-frequency details such as textures and edges in complex traffic environments (e.g., nighttime driving, tunnels), hindering discriminative feature extraction and degrading frame-based object detection. To address this, we integrate a bio-inspired event camera with an RGB camera to provide high dynamic range information and propose a motion cue fusion network (MCFNet), which achieves optimal spatiotemporal alignment and adaptive cross-modal feature fusion under challenging lighting. Specifically, an event correction module (ECM) temporally aligns asynchronous event streams with image frames via optical-flow-based warping, jointly optimized with the detection network to learn task-aware event representations. The event dynamic upsampling module (EDUM) enhances spatial resolution of event frames to match image structures, ensuring precise spatiotemporal alignment. The cross-modal mamba fusion module (CMM) uses adaptive feature fusion with a novel interlaced scanning mechanism, effectively integrating complementary information for robust detection. Experiments conducted on the DSEC-Det and PKU-DAVIS-SOD datasets demonstrate that MCFNet significantly outperforms existing methods in various poor lighting and fast moving traffic scenarios. Notably, on the DSEC-Det dataset, MCFNet achieves a remarkable improvement, surpassing the best existing methods by 7.4% in mAP50 and 1.7% in mAP metrics, respectively. The code is available at https://github.com/Charm11492/MCFNet.
- Abstract(参考訳): 従来のRGBカメラのダイナミックレンジ制限は、グローバルコントラストを低減し、複雑な交通環境(例えば、夜間運転、トンネル)におけるテクスチャやエッジなどの高周波細部が失われ、識別的特徴抽出の妨げとなり、フレームベースの物体検出が劣化する。
そこで本研究では,生物にインスパイアされたイベントカメラとRGBカメラを統合し,高ダイナミックレンジ情報を提供するとともに,最適な時空間アライメントと適応型クロスモーダル機能融合を実現する移動キュー融合ネットワーク(MCFNet)を提案する。
具体的には、イベント修正モジュール(ECM)は、非同期イベントストリームを光フローベースのワープにより画像フレームに時間的に整列させ、検出ネットワークと協調してタスク認識イベント表現を学習する。
イベントダイナミックアップサンプリングモジュール(EDUM)は、画像構造に合わせてイベントフレームの空間分解能を高め、正確な時空間アライメントを確保する。
クロスモーダルマンバ融合モジュール(CMM)は、新しいインターレース走査機構による適応的特徴融合を用いて、堅牢な検出のための補完情報を効果的に統合する。
DSEC-DetとPKU-DAVIS-SODデータセットで実施された実験は、MCFNetが様々な低照度および高速移動トラフィックシナリオにおいて既存の手法を著しく上回っていることを示している。
特に、DSEC-Detデータセットでは、MCFNetは、それぞれmAP50で7.4%、mAPメトリクスで1.7%の最高の既存のメソッドを上回り、顕著な改善を実現している。
コードはhttps://github.com/Charm11492/MCFNetで入手できる。
関連論文リスト
- Inter-event Interval Microscopy for Event Cameras [52.05337480169517]
イベントカメラは、革新的なバイオインスパイアされたセンサーであり、強度を直接知覚するのではなく、強度の変化を感知することで従来のカメラとは異なる。
蛍光顕微鏡における静的および動的シーンの静的なイベントカメラを用いたイベント・ツー・インテンシティ変換を実現する。
我々は,ハイダイナミックレンジや高速シナリオなど,様々な場面でIEIMatデータセットを収集した。
論文 参考訳(メタデータ) (2025-04-07T11:05:13Z) - Spatially-guided Temporal Aggregation for Robust Event-RGB Optical Flow Estimation [47.75348821902489]
現在の光学フロー法は、フレーム(またはRGB)データの安定した出現を利用して、時間にわたって堅牢な対応を確立する。
一方、イベントカメラは、高時間分解能のモーションキューを提供し、挑戦的なシナリオに優れています。
本研究は,時間的に密度の高い事象モダリティの集合を導くために空間的に密度の高いモダリティを用いる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-01-01T13:40:09Z) - Cross-Modal Object Tracking via Modality-Aware Fusion Network and A
Large-Scale Dataset [20.729414075628814]
我々は、Modality-Aware Fusion Network (MAFNet) と呼ばれる適応型クロスモーダル物体追跡アルゴリズムを提案する。
MAFNetは、適応重み付け機構を用いて、RGBとNIRの両方からの情報を効率的に統合する。
論文 参考訳(メタデータ) (2023-12-22T05:22:33Z) - Enhancing Traffic Object Detection in Variable Illumination with RGB-Event Fusion [29.117211261620934]
可変照明下での交通物体検出は,従来のフレームベースカメラのダイナミックレンジの制限による情報損失が原因で困難である。
本研究では、イベントストリームからシャープで完全なオブジェクト構造を抽出する新しい構造対応フュージョンネットワーク(SFNet)を提案する。
提案するSFNetは,従来のカメラの知覚的境界を克服し,mAP50では8.0%,mAP50:95では5.9%,フレームベースの手法より優れている。
論文 参考訳(メタデータ) (2023-11-01T10:59:57Z) - Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。
既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。
本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:03:23Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - RGB-Event Fusion for Moving Object Detection in Autonomous Driving [3.5397758597664306]
移動物体検出(MOD)は安全な自動運転を実現するための重要な視覚課題である。
センサ技術の最近の進歩、特にイベントカメラは、移動物体をより良くモデル化するための従来のカメラアプローチを自然に補完することができる。
我々は、より堅牢なMODを実現するために、2つの相補的モダリティを共同で活用する新しいRGB-Event fusion NetworkであるRENetを提案する。
論文 参考訳(メタデータ) (2022-09-17T12:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。