論文の概要: SSTFormer: Bridging Spiking Neural Network and Memory Support
Transformer for Frame-Event based Recognition
- arxiv url: http://arxiv.org/abs/2308.04369v2
- Date: Mon, 5 Feb 2024 03:08:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 05:44:17.689541
- Title: SSTFormer: Bridging Spiking Neural Network and Memory Support
Transformer for Frame-Event based Recognition
- Title(参考訳): SSTFormer: フレームイベントに基づく認識のためのブリッジングスパイキングニューラルネットワークとメモリサポートトランス
- Authors: Xiao Wang, Zongzhen Wu, Yao Rong, Lin Zhu, Bo Jiang, Jin Tang,
Yonghong Tian
- Abstract要約: 本稿では,RGBフレームとイベントストリームを同時に融合してパターンを認識することを提案する。
RGB-Eventベースの分類データセットが不足しているため、大規模なPokerEventデータセットも提案する。
- 参考スコア(独自算出の注目度): 42.118434116034194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event camera-based pattern recognition is a newly arising research topic in
recent years. Current researchers usually transform the event streams into
images, graphs, or voxels, and adopt deep neural networks for event-based
classification. Although good performance can be achieved on simple event
recognition datasets, however, their results may be still limited due to the
following two issues. Firstly, they adopt spatial sparse event streams for
recognition only, which may fail to capture the color and detailed texture
information well. Secondly, they adopt either Spiking Neural Networks (SNN) for
energy-efficient recognition with suboptimal results, or Artificial Neural
Networks (ANN) for energy-intensive, high-performance recognition. However,
seldom of them consider achieving a balance between these two aspects. In this
paper, we formally propose to recognize patterns by fusing RGB frames and event
streams simultaneously and propose a new RGB frame-event recognition framework
to address the aforementioned issues. The proposed method contains four main
modules, i.e., memory support Transformer network for RGB frame encoding,
spiking neural network for raw event stream encoding, multi-modal bottleneck
fusion module for RGB-Event feature aggregation, and prediction head. Due to
the scarce of RGB-Event based classification dataset, we also propose a
large-scale PokerEvent dataset which contains 114 classes, and 27102
frame-event pairs recorded using a DVS346 event camera. Extensive experiments
on two RGB-Event based classification datasets fully validated the
effectiveness of our proposed framework. We hope this work will boost the
development of pattern recognition by fusing RGB frames and event streams. Both
our dataset and source code of this work will be released at
https://github.com/Event-AHU/SSTFormer.
- Abstract(参考訳): イベントカメラに基づくパターン認識は近年新たに生まれた研究テーマである。
現在の研究者は通常、イベントストリームを画像、グラフ、voxelに変換し、イベントベースの分類にディープニューラルネットワークを採用する。
しかし、単純なイベント認識データセットでは良いパフォーマンスが得られるが、以下の2つの問題により、結果はまだ限られているかもしれない。
まず、認識のみに空間的スパースイベントストリームを採用するが、色や詳細なテクスチャ情報をうまくキャプチャできない場合がある。
第2に、spyking neural networks (snn) をエネルギー効率のよいサブオプティマイズによる認識に、artificial neural networks (ann) をエネルギー集約的かつ高性能な認識に採用している。
しかし、これら2つの側面のバランスを取ることはほとんど考えていない。
本稿では,RGBフレームとイベントストリームを同時に融合してパターンを認識することを提案し,上記の問題に対処する新しいRGBフレームイベント認識フレームワークを提案する。
提案手法は,RGBフレーム符号化のためのメモリサポートトランスフォーマーネットワーク,生イベントストリーム符号化のためのスパイクニューラルネットワーク,RGBイベント特徴集約のためのマルチモーダルボトルネック融合モジュール,予測ヘッドの4つの主要モジュールを含む。
また,RGB-Eventに基づく分類データセットが不足しているため,DVS346イベントカメラを用いて記録した114のクラスと27102のフレームイベントペアを含む大規模PokerEventデータセットを提案する。
2つのrgbイベントベースの分類データセットに関する広範な実験により,提案フレームワークの有効性が完全に検証された。
この作業により、RGBフレームとイベントストリームを融合することで、パターン認識の開発が促進されることを願っています。
この作業のデータセットとソースコードは、https://github.com/Event-AHU/SSTFormer.comで公開されます。
関連論文リスト
- RGB-Sonar Tracking Benchmark and Spatial Cross-Attention Transformer Tracker [4.235252053339947]
本稿では,新しいRGB-Sonar(RGB-S)トラッキングタスクを提案する。
RGBとソナーモダリティの相互作用により、水中の標的の効率的な追跡を実現する方法について検討する。
論文 参考訳(メタデータ) (2024-06-11T12:01:11Z) - Unleashing the Power of CNN and Transformer for Balanced RGB-Event Video
Recognition [43.52320791818535]
TSCFormer と呼ばれる新しい RGB-Event ベースの認識フレームワークを提案する。
主に、バックボーンネットワークとしてCNNを採用し、まずRGBとイベントデータをエンコードします。
両方のモダリティの間のグローバルな長距離関係をうまく捉え、モデルアーキテクチャ全体の単純さを維持します。
論文 参考訳(メタデータ) (2023-12-18T11:58:03Z) - Semantic-Aware Frame-Event Fusion based Pattern Recognition via Large
Vision-Language Models [15.231177830711077]
セマンティックラベル,RGBフレーム,イベントストリームを統合した新しいパターン認識フレームワークを提案する。
セマンティックなラベルを扱うために,素早い工学を通して言語記述に変換する。
マルチモーダルトランスフォーマーネットワークを用いたRGB/Event機能とセマンティック機能を統合する。
論文 参考訳(メタデータ) (2023-11-30T14:35:51Z) - Chasing Day and Night: Towards Robust and Efficient All-Day Object Detection Guided by an Event Camera [8.673063170884591]
EOLOは、RGBとイベントモダリティの両方を融合させることで、堅牢で効率的な全日検出を実現する、新しいオブジェクト検出フレームワークである。
我々のEOLOフレームワークは、イベントの非同期特性を効率的に活用するために、軽量スパイキングニューラルネットワーク(SNN)に基づいて構築されている。
論文 参考訳(メタデータ) (2023-09-17T15:14:01Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Learning Bottleneck Transformer for Event Image-Voxel Feature Fusion
based Classification [6.550582412924754]
本稿では,イベント表現,抽出,融合のための新しいデュアルストリームフレームワークを提案する。
実験により,提案フレームワークは,広く使用されている2つのイベントベース分類データセットに対して,最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2023-08-23T06:07:56Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。