論文の概要: Embracing Events and Frames with Hierarchical Feature Refinement Network for Object Detection
- arxiv url: http://arxiv.org/abs/2407.12582v1
- Date: Wed, 17 Jul 2024 14:09:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 16:56:39.817512
- Title: Embracing Events and Frames with Hierarchical Feature Refinement Network for Object Detection
- Title(参考訳): 物体検出のための階層的特徴再構成ネットワークによるイベントとフレームの受け入れ
- Authors: Hu Cao, Zehua Zhang, Yan Xia, Xinyi Li, Jiahao Xia, Guang Chen, Alois Knoll,
- Abstract要約: イベントカメラはスパースと非同期のイベントを出力し、これらの問題を解決する潜在的な解決策を提供する。
イベントフレーム融合のための新しい階層的特徴改善ネットワークを提案する。
本手法は, フレーム画像に15種類の汚損タイプを導入する際に, 極めて優れたロバスト性を示す。
- 参考スコア(独自算出の注目度): 17.406051477690134
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In frame-based vision, object detection faces substantial performance degradation under challenging conditions due to the limited sensing capability of conventional cameras. Event cameras output sparse and asynchronous events, providing a potential solution to solve these problems. However, effectively fusing two heterogeneous modalities remains an open issue. In this work, we propose a novel hierarchical feature refinement network for event-frame fusion. The core concept is the design of the coarse-to-fine fusion module, denoted as the cross-modality adaptive feature refinement (CAFR) module. In the initial phase, the bidirectional cross-modality interaction (BCI) part facilitates information bridging from two distinct sources. Subsequently, the features are further refined by aligning the channel-level mean and variance in the two-fold adaptive feature refinement (TAFR) part. We conducted extensive experiments on two benchmarks: the low-resolution PKU-DDD17-Car dataset and the high-resolution DSEC dataset. Experimental results show that our method surpasses the state-of-the-art by an impressive margin of $\textbf{8.0}\%$ on the DSEC dataset. Besides, our method exhibits significantly better robustness (\textbf{69.5}\% versus \textbf{38.7}\%) when introducing 15 different corruption types to the frame images. The code can be found at the link (https://github.com/HuCaoFighting/FRN).
- Abstract(参考訳): フレームベースの視覚では、従来のカメラのセンサー能力に制限があるため、オブジェクト検出は困難な条件下ではかなりの性能低下に直面している。
イベントカメラはスパースと非同期のイベントを出力し、これらの問題を解決する潜在的な解決策を提供する。
しかし、2つの不均一なモダリティを効果的に融合することは、未解決の問題である。
本研究では,イベントフレーム融合のための階層型特徴改善ネットワークを提案する。
中心となる概念は、相互適応機能改善モジュール(CAFR)と呼ばれる粗大な核融合モジュールの設計である。
初期段階では、双方向の相互モダリティ相互作用(BCI)部は、2つの異なるソースからの情報のブリッジを容易にする。
その後、チャネルレベルの平均値と2倍適応的特徴改善部(TAFR)のばらつきを整列させることにより、さらに特徴を洗練する。
低分解能PKU-DDD17-Carデータセットと高分解能DSECデータセットの2つのベンチマークで広範な実験を行った。
実験の結果,本手法はDSECデータセット上では$\textbf{8.0}\%の差で最先端の手法を上回ることがわかった。
さらに, フレーム画像に15種類の汚損タイプを導入すると, 高いロバスト性(\textbf{69.5}\%対 \textbf{38.7}\%)を示す。
コードはリンク(https://github.com/HuCaoFighting/FRN)で見ることができる。
関連論文リスト
- Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - SODFormer: Streaming Object Detection with Transformer Using Events and
Frames [31.293847706713052]
DAカメラは、非同期イベントとフレームの相補的な2つのモードをストリーミングする。
本稿では,SODFormerを用いた新しいストリーミングオブジェクト検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-08T04:53:52Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Searching Central Difference Convolutional Networks for Face
Anti-Spoofing [68.77468465774267]
顔認識システムにおいて、顔の反偽造(FAS)が重要な役割を担っている。
最先端のFASメソッドの多くは、スタック化された畳み込みと専門家が設計したネットワークに依存している。
ここでは、中央差分畳み込み(CDC)に基づくフレームレベルの新しいFAS手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T12:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。