論文の概要: Event-VPR: End-to-End Weakly Supervised Network Architecture for
Event-based Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2011.03290v1
- Date: Fri, 6 Nov 2020 11:32:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 05:15:36.353453
- Title: Event-VPR: End-to-End Weakly Supervised Network Architecture for
Event-based Visual Place Recognition
- Title(参考訳): Event-VPR: イベントベースの視覚的位置認識のためのネットワークアーキテクチャ
- Authors: Delei Kong, Zheng Fang, Haojia Li, Kuanxu Hou, Sonya Coleman and
Dermot Kerr
- Abstract要約: イベントカメラのためのエンドツーエンドの視覚的位置認識ネットワークを提案する。
提案アルゴリズムは、まず、ESTボクセルグリッドを用いてイベントストリームを特徴付け、次いで畳み込みネットワークを用いて特徴を抽出し、最後に改良されたVLADネットワークを用いて特徴を集約する。
実験結果から,提案手法は難易度の高いシナリオにおいて,より優れた性能が得られることが示された。
- 参考スコア(独自算出の注目度): 9.371066729205268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional visual place recognition (VPR) methods generally use frame-based
cameras, which is easy to fail due to dramatic illumination changes or fast
motions. In this paper, we propose an end-to-end visual place recognition
network for event cameras, which can achieve good place recognition performance
in challenging environments. The key idea of the proposed algorithm is firstly
to characterize the event streams with the EST voxel grid, then extract
features using a convolution network, and finally aggregate features using an
improved VLAD network to realize end-to-end visual place recognition using
event streams. To verify the effectiveness of the proposed algorithm, we
compare the proposed method with classical VPR methods on the event-based
driving datasets (MVSEC, DDD17) and the synthetic datasets (Oxford RobotCar).
Experimental results show that the proposed method can achieve much better
performance in challenging scenarios. To our knowledge, this is the first
end-to-end event-based VPR method. The accompanying source code is available at
https://github.com/kongdelei/Event-VPR.
- Abstract(参考訳): 従来の視覚的位置認識(VPR)法は一般的にフレームベースのカメラを使用するが、劇的な照明の変化や速い動きのために簡単に失敗する。
本稿では,イベントカメラのためのエンドツーエンドの視覚的位置認識ネットワークを提案する。
提案アルゴリズムの重要なアイデアは,まずイベントストリームをestvoxelグリッドで特徴付け,次に畳み込みネットワークを用いて特徴抽出,最後にvladネットワークによる機能集約を行い,イベントストリームを用いたエンドツーエンドのビジュアルプレース認識を実現することだ。
提案手法の有効性を検証するため,提案手法をイベントベース運転データセット(MVSEC, DDD17)と合成データセット(Oxford RobotCar)の古典的VPR手法と比較した。
実験の結果,提案手法は課題シナリオにおいてはるかに優れた性能が得られることがわかった。
私たちの知る限り、これは最初のエンドツーエンドのイベントベースのvprメソッドです。
関連するソースコードはhttps://github.com/kongdelei/event-vprで入手できる。
関連論文リスト
- Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - Event Stream-based Visual Object Tracking: A High-Resolution Benchmark
Dataset and A Novel Baseline [38.42400442371156]
既存の作業は、整列したRGBとイベントデータを使用して正確なトラッキングを行うか、イベントベースのトラッカーを直接学習する。
本稿では,知識伝達を促進するために,学習中に多モード/多ビュー情報を十分に活用できる新しい階層型知識蒸留フレームワークを提案する。
EventVOTという,最初の大規模高解像度(1280×720$)のデータセットを提案する。1141のビデオが収録されており,歩行者や自動車,UAV,ピンポンなど,幅広いカテゴリをカバーする。
論文 参考訳(メタデータ) (2023-09-26T01:42:26Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Cross-modal Place Recognition in Image Databases using Event-based
Sensors [28.124708490967713]
イベントクエリが与えられたデータベースから正規画像を取得することができる,最初のクロスプラットフォームな視覚的位置認識フレームワークを提案する。
本手法は,ブリスベン-イベント-VPRデータセット上での最先端のフレームベースおよびイベントベース手法に関する有望な結果を示す。
論文 参考訳(メタデータ) (2023-07-03T14:24:04Z) - Spiking-Fer: Spiking Neural Network for Facial Expression Recognition
With Event Cameras [2.9398911304923447]
Spiking-FER」は深層畳み込みSNNモデルであり、類似したニューラルネットワーク(ANN)と比較する。
実験の結果,提案手法はANNアーキテクチャに匹敵する性能を達成し,最大65.39倍のエネルギーを消費することがわかった。
論文 参考訳(メタデータ) (2023-04-20T10:59:56Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Adaptive Focus for Efficient Video Recognition [29.615394426035074]
効率的な空間適応映像認識(AdaFocus)のための強化学習手法を提案する。
タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。
オフライン推論の間、情報パッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスで効率的である。
論文 参考訳(メタデータ) (2021-05-07T13:24:47Z) - AR-Net: Adaptive Frame Resolution for Efficient Action Recognition [70.62587948892633]
行動認識はコンピュータビジョンにおいてオープンで困難な問題である。
本稿では,入力に条件付けされた各フレームの最適な解像度をオンザフライで選択し,効率的な動作認識を実現する,AR-Netと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-31T01:36:04Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z) - Dynamic Inference: A New Approach Toward Efficient Video Action
Recognition [69.9658249941149]
ビデオにおけるアクション認識は近年大きな成功を収めているが、膨大な計算コストのために依然として難しい課題である。
本稿では,異なるビデオの識別可能性の変動を利用して,推論効率を向上させるための一般的な動的推論手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T11:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。