Fugu-MT 論文翻訳(概要): Event Voxel Set Transformer for Spatiotemporal Representation Learning on Event Streams

論文の概要: Event Voxel Set Transformer for Spatiotemporal Representation Learning on Event Streams

arxiv url: http://arxiv.org/abs/2303.03856v2
Date: Thu, 18 May 2023 07:48:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-19 19:54:21.072295
Title: Event Voxel Set Transformer for Spatiotemporal Representation Learning on Event Streams
Title（参考訳）: イベントストリームを用いた時空間表現学習のためのイベントボクセルセットトランスフォーマ
Authors: Bochen Xie and Yongjian Deng and Zhanpeng Shao and Hai Liu and Qingsong Xu and Youfu Li
Abstract要約: イベントカメラは、視覚情報をスパースおよび非同期イベントストリームとして表現するニューロモルフィック視覚センサである。本研究では,イベントストリーム上での表現学習のためのイベントVoxel Set Transformer (EVSTr) という新しい注意認識モデルを開発した。オブジェクト分類と行動認識という2つのイベントベース認識タスクにおいて,提案したモデルを評価する。
参考スコア（独自算出の注目度）: 23.872611710730865
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Event cameras are neuromorphic vision sensors representing visual information as sparse and asynchronous event streams. Most state-of-the-art event-based methods project events into dense frames and process them with conventional learning models. However, these approaches sacrifice the sparsity and high temporal resolution of event data, resulting in a large model size and high computational complexity. To fit the sparse nature of events and sufficiently explore the relationship between them, we develop a novel attention-aware model named Event Voxel Set Transformer (EVSTr) for spatiotemporal representation learning on event streams. It first converts the event stream into voxel sets and then hierarchically aggregates voxel features to obtain robust representations. The core of EVSTr is an event voxel transformer encoder to extract discriminative spatiotemporal features, which consists of two well-designed components, including a Multi-Scale Neighbor Embedding Layer (MNEL) for local information aggregation and a Voxel Self-Attention Layer (VSAL) for global feature interactions. Enabling the network to incorporate a long-range temporal structure, we introduce a segment modeling strategy to learn motion patterns from a sequence of segmented voxel sets. We evaluate the proposed model on two event-based recognition tasks: object classification and action recognition. Comprehensive experiments show that EVSTr achieves state-of-the-art performance while maintaining low model complexity. Additionally, we present a new dataset (NeuroHAR) recorded in challenging visual scenarios to complement the lack of real-world event-based datasets for action recognition.
Abstract（参考訳）: イベントカメラは、視覚情報をスパースおよび非同期イベントストリームとして表現するニューロモルフィック視覚センサである。ほとんどの最先端のイベントベース手法は、イベントを密集したフレームに投影し、従来の学習モデルで処理する。しかし、これらの手法はイベントデータのスパーシリティと高時間分解能を犠牲にして、大きなモデルサイズと高い計算複雑性をもたらす。本研究では,イベントストリームにおける時空間表現学習のためのイベントVoxel Set Transformer (EVSTr) という新しいアテンション対応モデルを開発した。まずイベントストリームをvoxelセットに変換し、次に階層的にvoxel機能を集約して堅牢な表現を得る。 EVSTrのコアは、ローカル情報集約のためのMNEL(Multi-Scale Neighbor Embedding Layer)とグローバル機能インタラクションのためのVoxel Self-Attention Layer(VSAL)という2つのよく設計されたコンポーネントで構成される、差別的時空間特徴を抽出するイベントボクセルトランスフォーマーエンコーダである。ネットワークを長期の時間構造に組み込むことにより,セグメント化されたボクセル集合から動作パターンを学習するためのセグメントモデリング戦略を導入する。オブジェクト分類と行動認識という2つのイベントベース認識タスクにおいて,提案したモデルを評価する。総合的な実験によると、EVSTrは低モデルの複雑さを維持しながら最先端のパフォーマンスを達成する。さらに、現実のイベントベースの行動認識データセットの欠如を補うために、挑戦的な視覚シナリオで記録された新しいデータセット(NeuroHAR)を提案する。

関連論文リスト

Hybrid Spiking Vision Transformer for Object Detection with Event Cameras [19.967565219584056]
スパイキングニューラルネットワーク(SNN)は、低エネルギー消費とリッチダイナミクスを提供する、有望なアプローチとして登場した。本研究では,イベントベース物体検出の性能向上を目的としたハイブリッドトランスフォーマー(HsVT)モデルを提案する。実験結果から,HsVTはより少ないパラメータでイベント検出において大幅な性能向上を実現していることがわかった。
論文参考訳（メタデータ） (2025-05-12T16:19:20Z)
Event Stream-based Visual Object Tracking: HDETrack V2 and A High-Definition Benchmark [36.9654606035663]
本稿では,学生トランスフォーマーネットワークの学習を支援するために,新しい階層的知識蒸留戦略を導入する。新たに提案したテストタイムチューニング戦略により,テスト対象オブジェクトに対してネットワークモデルを適用する。大規模なイベントベースのトラッキングデータセットであるEventVOTを提案する。
論文参考訳（メタデータ） (2025-02-08T13:59:52Z)
A dynamic vision sensor object recognition model based on trainable event-driven convolution and spiking attention mechanism [9.745798797360886]
Spiking Neural Networks(SNN)は、ダイナミックビジュアルセンサー(DVS)からのイベントストリームを処理するのに適している DVSオブジェクトから特徴を抽出するために、SNNは通常、固定されたカーネルパラメータでイベント駆動の畳み込みを使用する。トレーニング可能なイベント駆動型畳み込みとスパイク注意機構を利用するDVSオブジェクト認識モデルを提案する。
論文参考訳（メタデータ） (2024-09-19T12:01:05Z)
Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。 Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文参考訳（メタデータ） (2024-06-27T02:32:46Z)
GET: Group Event Transformer for Event-Based Vision [82.312736707534]
イベントカメラは、注目を集めている新しいニューロモルフィックセンサーの一種である。我々は、グループイベントトランスフォーマー(GET)と呼ばれる、イベントベースのビジョンのための新しいグループベースのビジョントランスフォーマーバックボーンを提案する。 GETは特徴抽出プロセスを通して空間的インフォメーションから時間的極性情報を分離する。
論文参考訳（メタデータ） (2023-10-04T08:02:33Z)
EventTransAct: A video transformer-based framework for Event-camera based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文参考訳（メタデータ） (2023-08-25T23:51:07Z)
Learning Bottleneck Transformer for Event Image-Voxel Feature Fusion based Classification [6.550582412924754]
本稿では,イベント表現,抽出,融合のための新しいデュアルストリームフレームワークを提案する。実験により,提案フレームワークは,広く使用されている2つのイベントベース分類データセットに対して,最先端のパフォーマンスを実現することを示す。
論文参考訳（メタデータ） (2023-08-23T06:07:56Z)
Dual Memory Aggregation Network for Event-Based Object Detection with Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文参考訳（メタデータ） (2023-03-17T12:12:41Z)
A Unified Framework for Event-based Frame Interpolation with Ad-hoc Deblurring in the Wild [72.0226493284814]
本稿では,デブロリングアドホックを行うイベントベースフレームの統一フレームワークを提案する。我々のネットワークは、フレーム上の従来の最先端の手法、単一画像のデブロアリング、および両者のジョイントタスクを一貫して上回ります。
論文参考訳（メタデータ） (2023-01-12T18:19:00Z)
EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文参考訳（メタデータ） (2021-07-22T15:57:18Z)
EV-VGCNN: A Voxel Graph CNN for Event-based Object Classification [18.154951807178943]
イベントカメラは、少ない強度変化を報告し、ポータブルデバイス上での視覚知覚と理解のための低消費電力、高ダイナミックレンジ、高応答速度の顕著な利点を目立たせる。イベントベースの学習手法は、従来の2次元学習アルゴリズムを適用するために、イベントを密度の高いフレームベースの表現に統合することで、オブジェクト認識において大きな成功を収めている。これらのアプローチは、スパース・トゥ・ディエンス変換の期間中に多くの冗長な情報を導入し、重量と大容量のモデルを必要とするため、リアルタイムアプリケーションにおけるイベントカメラの可能性を制限する。
論文参考訳（メタデータ） (2021-06-01T04:07:03Z)
Superevents: Towards Native Semantic Segmentation for Event-based Cameras [13.099264910430986]
最も成功したコンピュータビジョンモデルは、gaborフィルタ応答のような低レベルの機能を下流の視覚タスクの中間または中間レベルの複雑さのよりリッチな表現に変換する。本論文では,全畳み込みネットワークに供給されるイベントストリーム表現を得るために,生涯拡張を用いた新しい手法を提案する。
論文参考訳（メタデータ） (2021-05-13T05:49:41Z)
Event-based Asynchronous Sparse Convolutional Networks [54.094244806123235]
イベントカメラはバイオインスパイアされたセンサーで、非同期でスパースな「イベント」の形で画素ごとの明るさ変化に反応する。同期画像のようなイベント表現で訓練されたモデルを、同じ出力を持つ非同期モデルに変換するための一般的なフレームワークを提案する。理論的および実験的に、これは高容量同期ニューラルネットワークの計算複雑性と遅延を大幅に減少させることを示す。
論文参考訳（メタデータ） (2020-03-20T08:39:49Z)
A Differentiable Recurrent Surface for Asynchronous Event-Based Data [19.605628378366667]
本研究では,Long Short-Term Memory (LSTM) セルのグリッドであるMatrix-LSTMを提案する。既存の再構成手法と比較して,学習した事象表面は柔軟性と光フロー推定に優れていた。 N-Carsデータセット上でのイベントベースのオブジェクト分類の最先端性を改善する。
論文参考訳（メタデータ） (2020-01-10T14:09:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。