論文の概要: Spike-EVPR: Deep Spiking Residual Network with Cross-Representation
Aggregation for Event-Based Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2402.10476v1
- Date: Fri, 16 Feb 2024 06:45:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 17:18:18.764791
- Title: Spike-EVPR: Deep Spiking Residual Network with Cross-Representation
Aggregation for Event-Based Visual Place Recognition
- Title(参考訳): Spike-EVPR:イベントベースの視覚的位置認識のためのクロス表現アグリゲーションを用いたディープスパイキング残差ネットワーク
- Authors: Chenming Hu, Zheng Fang, Kuanxu Hou, Delei Kong, Junjie Jiang, Hao
Zhuang, Mingyuan Sun and Xinjie Huang
- Abstract要約: 深層人工ニューラルネットワーク(ANN)を用いた視覚的位置認識(VPR)タスクへのイベントカメラの適用に成功している
本稿では,イベントベースVPRタスクのためのスパイクEVPRと呼ばれる新しいディープスパイクネットワークアーキテクチャを提案する。
上記の課題に対処するため、イベントベースVPRタスクのためのSpike-EVPRと呼ばれる新しいディープスパイクネットワークアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 4.357768397230497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event cameras have been successfully applied to visual place recognition
(VPR) tasks by using deep artificial neural networks (ANNs) in recent years.
However, previously proposed deep ANN architectures are often unable to harness
the abundant temporal information presented in event streams. In contrast, deep
spiking networks exhibit more intricate spatiotemporal dynamics and are
inherently well-suited to process sparse asynchronous event streams.
Unfortunately, directly inputting temporal-dense event volumes into the spiking
network introduces excessive time steps, resulting in prohibitively high
training costs for large-scale VPR tasks. To address the aforementioned issues,
we propose a novel deep spiking network architecture called Spike-EVPR for
event-based VPR tasks. First, we introduce two novel event representations
tailored for SNN to fully exploit the spatio-temporal information from the
event streams, and reduce the video memory occupation during training as much
as possible. Then, to exploit the full potential of these two representations,
we construct a Bifurcated Spike Residual Encoder (BSR-Encoder) with powerful
representational capabilities to better extract the high-level features from
the two event representations. Next, we introduce a Shared & Specific
Descriptor Extractor (SSD-Extractor). This module is designed to extract
features shared between the two representations and features specific to each.
Finally, we propose a Cross-Descriptor Aggregation Module (CDA-Module) that
fuses the above three features to generate a refined, robust global descriptor
of the scene. Our experimental results indicate the superior performance of our
Spike-EVPR compared to several existing EVPR pipelines on Brisbane-Event-VPR
and DDD20 datasets, with the average Recall@1 increased by 7.61% on Brisbane
and 13.20% on DDD20.
- Abstract(参考訳): 近年,deep artificial neural network (anns) を用いてイベントカメラを視覚位置認識(vpr)タスクに適用することに成功した。
しかし、以前に提案されたディープアンアーキテクチャは、イベントストリームで提示される豊富な時間情報を利用することができないことが多い。
対照的に、ディープスパイキングネットワークはより複雑な時空間ダイナミクスを示し、本質的にスパースな非同期イベントストリームを処理するのに適している。
残念ながら、時空イベントボリュームをスパイクネットワークに直接入力すると、過度な時間ステップが発生するため、大規模なVPRタスクのトレーニングコストは極めて高い。
上記の課題に対処するため、イベントベースVPRタスクのためのSpike-EVPRと呼ばれる新しいディープスパイクネットワークアーキテクチャを提案する。
まず、SNNに適した2つの新しいイベント表現を紹介し、イベントストリームからの時空間情報を完全に活用し、トレーニング中のビデオメモリの占有を可能な限り削減する。
そして,これらの2つの表現の潜在能力を最大限活用するために,2つのイベント表現から高レベル特徴をよりよく抽出する強力な表現機能を備えたビフルシテッドスパイク残差エンコーダ(BSR-Encoder)を構築する。
次に、共有・特定記述子エクストラクタ(SSD-Extractor)を紹介する。
このモジュールは2つの表現間で共有される特徴と、それぞれ固有の特徴を抽出するように設計されている。
最後に、上記の3つの機能を融合して、シーンの洗練されたロバストなグローバルディスクリプタを生成するクロスディスクリプタアグリゲーションモジュール(cda-module)を提案する。
我々の実験結果は、Bristone-Event-VPRおよびDDD20データセット上の既存のEVPRパイプラインと比較して、Spike-EVPRの優れたパフォーマンスを示し、平均Recall@1はBristoneで7.61%、DDD20で13.20%増加した。
関連論文リスト
- Spiking Neural Network as Adaptive Event Stream Slicer [10.279359105384334]
イベントベースのカメラは、リッチエッジ情報、高ダイナミックレンジ、高時間分解能を提供する。
最先端のイベントベースのアルゴリズムの多くは、イベントを固定グループに分割することに依存しており、重要な時間情報の欠落をもたらす。
SpikeSlicerは、イベントストリームを適応的に分割可能な、新規に設計されたプラグアンドプレイイベント処理方式である。
論文 参考訳(メタデータ) (2024-10-03T06:41:10Z) - Unified Static and Dynamic Network: Efficient Temporal Filtering for Video Grounding [56.315932539150324]
ビデオとテキスト/オーディオクエリ間の意味的関連を学習するために,Unified Static and Dynamic Network (UniSDNet) を設計する。
我々のUniSDNetは、NLVG(Natural Language Video Grounding)タスクとSLVG(Spoke Language Video Grounding)タスクの両方に適用できます。
論文 参考訳(メタデータ) (2024-03-21T06:53:40Z) - HyperE2VID: Improving Event-Based Video Reconstruction via Hypernetworks [16.432164340779266]
イベントベースビデオ再構成のための動的ニューラルネットワークアーキテクチャであるHyperE2VIDを提案する。
提案手法では,ハイパーネットワークを用いてコンテキスト融合モジュールによって誘導される画素ごとの適応フィルタを生成する。
論文 参考訳(メタデータ) (2023-05-10T18:00:06Z) - Spiking-Fer: Spiking Neural Network for Facial Expression Recognition
With Event Cameras [2.9398911304923447]
Spiking-FER」は深層畳み込みSNNモデルであり、類似したニューラルネットワーク(ANN)と比較する。
実験の結果,提案手法はANNアーキテクチャに匹敵する性能を達成し,最大65.39倍のエネルギーを消費することがわかった。
論文 参考訳(メタデータ) (2023-04-20T10:59:56Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - HALSIE: Hybrid Approach to Learning Segmentation by Simultaneously
Exploiting Image and Event Modalities [6.543272301133159]
イベントカメラは、非同期イベントストリームを生成するためにピクセルごとの強度の変化を検出する。
リアルタイム自律システムにおいて、正確なセマンティックマップ検索のための大きな可能性を秘めている。
イベントセグメンテーションの既存の実装は、サブベースのパフォーマンスに悩まされている。
本研究では,ハイブリット・エンド・エンド・エンドの学習フレームワークHALSIEを提案する。
論文 参考訳(メタデータ) (2022-11-19T17:09:50Z) - BiFSMNv2: Pushing Binary Neural Networks for Keyword Spotting to
Real-Network Performance [54.214426436283134]
Deep-FSMNのようなディープニューラルネットワークはキーワードスポッティング(KWS)アプリケーションのために広く研究されている。
我々は、KWS、すなわちBiFSMNv2のための強力で効率的なバイナリニューラルネットワークを提示し、それを実ネットワーク精度のパフォーマンスにプッシュする。
小型アーキテクチャと最適化されたハードウェアカーネルの利点により、BiFSMNv2は25.1倍のスピードアップと20.2倍のストレージ節約を実現できる。
論文 参考訳(メタデータ) (2022-11-13T18:31:45Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - Hybrid-S2S: Video Object Segmentation with Recurrent Networks and
Correspondence Matching [3.9053553775979086]
ワンショットビデオオブジェクト(ワンショットビデオオブジェクト、英: One-shot Video Object、VOS)は、ビデオシーケンス内で関心のあるオブジェクトを追跡するタスクである。
本稿では,RNNをベースとしたアーキテクチャについて検討し,HS2Sというハイブリッドシーケンス・ツー・シーケンスアーキテクチャを提案する。
実験の結果,RNNを対応マッチングで拡張することはドリフト問題を低減するのに極めて有効な解であることがわかった。
論文 参考訳(メタデータ) (2020-10-10T19:00:43Z) - Temporally Distributed Networks for Fast Video Semantic Segmentation [64.5330491940425]
TDNetは、高速かつ正確なビデオセマンティックセグメンテーションのために設計された時間分散ネットワークである。
我々は,深層CNNの特定の高層層から抽出した特徴を,より浅いサブネットワークから抽出した特徴の合成により近似することができることを観察した。
Cityscapes, CamVid, NYUD-v2 の実験により,本手法が高速かつ低レイテンシで最先端の精度を実現することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:43:32Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。