論文の概要: Event Voxel Set Transformer for Spatiotemporal Representation Learning on Event Streams
- arxiv url: http://arxiv.org/abs/2303.03856v3
- Date: Mon, 2 Sep 2024 03:56:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 22:54:55.320209
- Title: Event Voxel Set Transformer for Spatiotemporal Representation Learning on Event Streams
- Title(参考訳): イベントストリームにおける時空間表現学習のためのイベントボクセルセット変換器
- Authors: Bochen Xie, Yongjian Deng, Zhanpeng Shao, Qingsong Xu, Youfu Li,
- Abstract要約: イベントカメラは、シーンをスパースで非同期なイベントストリームとして記録するニューロモルフィックな視覚センサである。
本稿では,イベントストリーム上での効率的な表現学習のためのイベントVoxel Set Transformer (EVSTr) という注目度モデルを提案する。
実験によると、EVSTrは低モデルの複雑さを維持しながら最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 19.957857885844838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event cameras are neuromorphic vision sensors that record a scene as sparse and asynchronous event streams. Most event-based methods project events into dense frames and process them using conventional vision models, resulting in high computational complexity. A recent trend is to develop point-based networks that achieve efficient event processing by learning sparse representations. However, existing works may lack robust local information aggregators and effective feature interaction operations, thus limiting their modeling capabilities. To this end, we propose an attention-aware model named Event Voxel Set Transformer (EVSTr) for efficient spatiotemporal representation learning on event streams. It first converts the event stream into voxel sets and then hierarchically aggregates voxel features to obtain robust representations. The core of EVSTr is an event voxel transformer encoder that consists of two well-designed components, including the Multi-Scale Neighbor Embedding Layer (MNEL) for local information aggregation and the Voxel Self-Attention Layer (VSAL) for global feature interaction. Enabling the network to incorporate a long-range temporal structure, we introduce a segment modeling strategy (S$^{2}$TM) to learn motion patterns from a sequence of segmented voxel sets. The proposed model is evaluated on two recognition tasks, including object classification and action recognition. To provide a convincing model evaluation, we present a new event-based action recognition dataset (NeuroHAR) recorded in challenging scenarios. Comprehensive experiments show that EVSTr achieves state-of-the-art performance while maintaining low model complexity.
- Abstract(参考訳): イベントカメラは、シーンをスパースで非同期なイベントストリームとして記録するニューロモルフィックな視覚センサである。
イベントベースのほとんどの手法はイベントを高密度のフレームに投影し、従来の視覚モデルを用いて処理する。
最近のトレンドは、スパース表現を学習することで効率的なイベント処理を実現するポイントベースのネットワークを開発することである。
しかし、既存の作業には、ロバストなローカル情報アグリゲータと効果的な機能インタラクション操作が欠けているため、モデリング能力が制限される可能性がある。
そこで本研究では,イベントストリーム上での時空間表現学習を効率的に行うために,イベントVoxel Set Transformer (EVSTr) という注意型モデルを提案する。
まずイベントストリームをボクセル集合に変換し、次に階層的にボクセル特徴を集約してロバスト表現を得る。
EVSTrの中核は、ローカル情報アグリゲーションのためのMNEL(Multi-Scale Neighbor Embedding Layer)とグローバル機能インタラクションのためのVSAL(Voxel Self-Attention Layer)という2つのよく設計されたコンポーネントで構成されるイベントボクセルトランスフォーマーエンコーダである。
長範囲の時間構造を組み込むためにネットワークを導入し、セグメント化されたボクセル集合のシーケンスから動作パターンを学習するためのセグメントモデリング戦略(S$^{2}$TM)を導入する。
提案手法はオブジェクト分類と動作認識を含む2つの認識タスクに基づいて評価される。
説得力のあるモデル評価を行うため,挑戦的なシナリオに記録された新しいイベントベースの行動認識データセット(NeuroHAR)を提案する。
総合的な実験によると、EVSTrは低モデルの複雑さを維持しながら最先端のパフォーマンスを達成する。
関連論文リスト
- A dynamic vision sensor object recognition model based on trainable event-driven convolution and spiking attention mechanism [9.745798797360886]
Spiking Neural Networks(SNN)は、ダイナミックビジュアルセンサー(DVS)からのイベントストリームを処理するのに適している
DVSオブジェクトから特徴を抽出するために、SNNは通常、固定されたカーネルパラメータでイベント駆動の畳み込みを使用する。
トレーニング可能なイベント駆動型畳み込みとスパイク注意機構を利用するDVSオブジェクト認識モデルを提案する。
論文 参考訳(メタデータ) (2024-09-19T12:01:05Z) - Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - GET: Group Event Transformer for Event-Based Vision [82.312736707534]
イベントカメラは、注目を集めている新しいニューロモルフィックセンサーの一種である。
我々は、グループイベントトランスフォーマー(GET)と呼ばれる、イベントベースのビジョンのための新しいグループベースのビジョントランスフォーマーバックボーンを提案する。
GETは特徴抽出プロセスを通して空間的インフォメーションから時間的極性情報を分離する。
論文 参考訳(メタデータ) (2023-10-04T08:02:33Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Learning Bottleneck Transformer for Event Image-Voxel Feature Fusion
based Classification [6.550582412924754]
本稿では,イベント表現,抽出,融合のための新しいデュアルストリームフレームワークを提案する。
実験により,提案フレームワークは,広く使用されている2つのイベントベース分類データセットに対して,最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2023-08-23T06:07:56Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - EV-VGCNN: A Voxel Graph CNN for Event-based Object Classification [18.154951807178943]
イベントカメラは、少ない強度変化を報告し、ポータブルデバイス上での視覚知覚と理解のための低消費電力、高ダイナミックレンジ、高応答速度の顕著な利点を目立たせる。
イベントベースの学習手法は、従来の2次元学習アルゴリズムを適用するために、イベントを密度の高いフレームベースの表現に統合することで、オブジェクト認識において大きな成功を収めている。
これらのアプローチは、スパース・トゥ・ディエンス変換の期間中に多くの冗長な情報を導入し、重量と大容量のモデルを必要とするため、リアルタイムアプリケーションにおけるイベントカメラの可能性を制限する。
論文 参考訳(メタデータ) (2021-06-01T04:07:03Z) - Superevents: Towards Native Semantic Segmentation for Event-based
Cameras [13.099264910430986]
最も成功したコンピュータビジョンモデルは、gaborフィルタ応答のような低レベルの機能を下流の視覚タスクの中間または中間レベルの複雑さのよりリッチな表現に変換する。
本論文では,全畳み込みネットワークに供給されるイベントストリーム表現を得るために,生涯拡張を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-13T05:49:41Z) - Event-based Asynchronous Sparse Convolutional Networks [54.094244806123235]
イベントカメラはバイオインスパイアされたセンサーで、非同期でスパースな「イベント」の形で画素ごとの明るさ変化に反応する。
同期画像のようなイベント表現で訓練されたモデルを、同じ出力を持つ非同期モデルに変換するための一般的なフレームワークを提案する。
理論的および実験的に、これは高容量同期ニューラルネットワークの計算複雑性と遅延を大幅に減少させることを示す。
論文 参考訳(メタデータ) (2020-03-20T08:39:49Z) - A Differentiable Recurrent Surface for Asynchronous Event-Based Data [19.605628378366667]
本研究では,Long Short-Term Memory (LSTM) セルのグリッドであるMatrix-LSTMを提案する。
既存の再構成手法と比較して,学習した事象表面は柔軟性と光フロー推定に優れていた。
N-Carsデータセット上でのイベントベースのオブジェクト分類の最先端性を改善する。
論文 参考訳(メタデータ) (2020-01-10T14:09:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。