論文の概要: FE-Fusion-VPR: Attention-based Multi-Scale Network Architecture for
Visual Place Recognition by Fusing Frames and Events
- arxiv url: http://arxiv.org/abs/2211.12244v2
- Date: Wed, 23 Nov 2022 03:07:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 13:29:42.314325
- Title: FE-Fusion-VPR: Attention-based Multi-Scale Network Architecture for
Visual Place Recognition by Fusing Frames and Events
- Title(参考訳): FE-Fusion-VPR:フレームとイベントの融合による視覚的位置認識のための注意型マルチスケールネットワークアーキテクチャ
- Authors: Kuanxu Hou, Delei Kong, Junjie Jiang, Hao Zhuang, Xinjie Huang and
Zheng Fang
- Abstract要約: フレームとイベントを融合させることにより,VPRのマルチスケールネットワークアーキテクチャであるFE-Fusion-VPRを提案する。
我々の知る限り、これはVPRのためにフレームとイベントを直接フューズする既存のイベントベースおよびフレームベースのSOTAメソッドを超える最初のエンドツーエンドネットワークです。
- 参考スコア(独自算出の注目度): 4.266841662194981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional visual place recognition (VPR), usually using standard cameras,
is easy to fail due to glare or high-speed motion. By contrast, event cameras
have the advantages of low latency, high temporal resolution, and high dynamic
range, which can deal with the above issues. Nevertheless, event cameras are
prone to failure in weakly textured or motionless scenes, while standard
cameras can still provide appearance information in this case. Thus, exploiting
the complementarity of standard cameras and event cameras can effectively
improve the performance of VPR algorithms. In the paper, we propose
FE-Fusion-VPR, an attention-based multi-scale network architecture for VPR by
fusing frames and events. First, the intensity frame and event volume are fed
into the two-stream feature extraction network for shallow feature fusion.
Next, the three-scale features are obtained through the multi-scale fusion
network and aggregated into three sub-descriptors using the VLAD layer.
Finally, the weight of each sub-descriptor is learned through the descriptor
re-weighting network to obtain the final refined descriptor. Experimental
results show that on the Brisbane-Event-VPR and DDD20 datasets, the Recall@1 of
our FE-Fusion-VPR is 29.26% and 33.59% higher than Event-VPR and
Ensemble-EventVPR, and is 7.00% and 14.15% higher than MultiRes-NetVLAD and
NetVLAD. To our knowledge, this is the first end-to-end network that goes
beyond the existing event-based and frame-based SOTA methods to fuse frame and
events directly for VPR.
- Abstract(参考訳): 従来の視覚位置認識(vpr)は、通常標準カメラを使用しており、暗い動きや高速動きのために簡単に失敗する。
対照的に、イベントカメラは低レイテンシ、高時間分解能、高ダイナミックレンジの利点があり、上記の問題に対処できる。
それでも、イベントカメラは、弱いテクスチャや動きのないシーンでは失敗しがちだが、標準的なカメラは、この場合の外観情報を提供することができる。
したがって、標準カメラとイベントカメラの相補性を活用すれば、VPRアルゴリズムの性能を効果的に向上させることができる。
本稿では,フレームとイベントを融合させてVPRのマルチスケールネットワークアーキテクチャであるFE-Fusion-VPRを提案する。
まず、浅部特徴融合のために、インテンシティフレームとイベントボリュームを2ストリーム特徴抽出ネットワークに供給する。
次に,VLAD層を用いて3つのサブディスクリプタに集約し,マルチスケール核融合ネットワークを用いて3つの特徴量を求める。
最後に、各サブディスクリプタの重みをディスクリプタ再重み付けネットワークを介して学習し、最終精細化ディスクリプタを得る。
Brisbane-Event-VPRとDDD20データセットでは、FE-Fusion-VPRのRecall@1は、Event-VPRとEnsemble-EventVPRよりも29.26%高く、33.59%高く、MultiRes-NetVLADとNetVLADよりも7.00%、14.15%高い。
我々の知る限り、これはVPRのためにフレームとイベントを直接フューズする既存のイベントベースおよびフレームベースのSOTAメソッドを超える最初のエンドツーエンドネットワークです。
関連論文リスト
- EF-3DGS: Event-Aided Free-Trajectory 3D Gaussian Splatting [76.02450110026747]
生物学的ビジョンにインスパイアされたイベントカメラは、時間分解能の高い画素の強度を非同期に記録する。
本稿では,イベントカメラの利点を3DGSにシームレスに統合するイベント支援フリートラジェクトリ3DGSを提案する。
提案手法を,パブリックタンクとテンプルのベンチマークと,新たに収集した実世界のデータセットであるRealEv-DAVISで評価した。
論文 参考訳(メタデータ) (2024-10-20T13:44:24Z) - Embracing Events and Frames with Hierarchical Feature Refinement Network for Object Detection [17.406051477690134]
イベントカメラはスパースと非同期のイベントを出力し、これらの問題を解決する潜在的な解決策を提供する。
イベントフレーム融合のための新しい階層的特徴改善ネットワークを提案する。
本手法は, フレーム画像に15種類の汚損タイプを導入する際に, 極めて優れたロバスト性を示す。
論文 参考訳(メタデータ) (2024-07-17T14:09:46Z) - Spike-EVPR: Deep Spiking Residual Network with Cross-Representation
Aggregation for Event-Based Visual Place Recognition [4.357768397230497]
深層人工ニューラルネットワーク(ANN)を用いた視覚的位置認識(VPR)タスクへのイベントカメラの適用に成功している
本稿では,イベントベースVPRタスクのためのスパイクEVPRと呼ばれる新しいディープスパイクネットワークアーキテクチャを提案する。
上記の課題に対処するため、イベントベースVPRタスクのためのSpike-EVPRと呼ばれる新しいディープスパイクネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-02-16T06:45:25Z) - MEFNet: Multi-scale Event Fusion Network for Motion Deblurring [62.60878284671317]
従来のフレームベースのカメラは、長時間露光のために必然的に動きがぼやけている。
バイオインスパイアされたカメラの一種として、イベントカメラは、高時間分解能で非同期な方法で強度変化を記録する。
本稿では,イベントベースの画像劣化問題を再考し,これをエンドツーエンドの2段階画像復元ネットワークに展開する。
論文 参考訳(メタデータ) (2021-11-30T23:18:35Z) - VisEvent: Reliable Object Tracking via Collaboration of Frame and Event
Flows [93.54888104118822]
このタスクには現実的でスケールしたデータセットがないため、大規模なVisible-Eventベンチマーク(VisEventと呼ぶ)を提案する。
私たちのデータセットは、低照度、高速、背景乱雑なシナリオ下でキャプチャされた820のビデオペアで構成されています。
VisEventに基づいて、イベントフローをイベントイメージに変換し、30以上のベースラインメソッドを構築します。
論文 参考訳(メタデータ) (2021-08-11T03:55:12Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Deep Learning for Robust Motion Segmentation with Non-Static Cameras [0.0]
本論文では,MOSNET と呼ばれる非静的なカメラで撮影するモーションセグメンテーションのための新たな DCNN ベースのアプローチを提案する。
他のアプローチは空間的または時間的文脈に焦点を当てているが、提案手法は3d畳み込みをビデオフレームの時間的特徴を分解する重要な技術として用いる。
このネットワークは、シーン中に画像コンテンツが大幅に変化する静電カメラで撮影されたシーンでうまく機能します。
論文 参考訳(メタデータ) (2021-02-22T11:58:41Z) - Event-VPR: End-to-End Weakly Supervised Network Architecture for
Event-based Visual Place Recognition [9.371066729205268]
イベントカメラのためのエンドツーエンドの視覚的位置認識ネットワークを提案する。
提案アルゴリズムは、まず、ESTボクセルグリッドを用いてイベントストリームを特徴付け、次いで畳み込みネットワークを用いて特徴を抽出し、最後に改良されたVLADネットワークを用いて特徴を集約する。
実験結果から,提案手法は難易度の高いシナリオにおいて,より優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-11-06T11:32:04Z) - EventSR: From Asynchronous Events to Image Reconstruction, Restoration,
and Super-Resolution via End-to-End Adversarial Learning [75.17497166510083]
イベントカメラは強度の変化を感知し、従来のカメラよりも多くの利点がある。
イベントストリームからの強度画像の再構成手法が提案されている。
出力は依然として低解像度(LR)、ノイズ、非現実的である。
本研究では、イベントストリームからLR画像を再構成し、画像品質を高め、EventSRと呼ばれる拡張イメージをアップサンプリングする、新しいエンドツーエンドパイプラインを提案する。
論文 参考訳(メタデータ) (2020-03-17T10:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。