論文の概要: Path-adaptive Spatio-Temporal State Space Model for Event-based Recognition with Arbitrary Duration
- arxiv url: http://arxiv.org/abs/2409.16953v1
- Date: Wed, 25 Sep 2024 14:08:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 03:25:18.545771
- Title: Path-adaptive Spatio-Temporal State Space Model for Event-based Recognition with Arbitrary Duration
- Title(参考訳): 任意時間付きイベントベース認識のためのパス適応時空間モデル
- Authors: Jiazhou Zhou, Kanghao Chen, Lei Zhang, Lin Wang,
- Abstract要約: イベントカメラはバイオインスパイアされたセンサーで、強度の変化を非同期に捉え、イベントストリームを出力する。
本稿では, PAST-Act と呼ばれる新しいフレームワークを提案する。
私たちはまた、コミュニティの利益のために任意の期間で、ArDVS100という名前の分レベルのイベントベースの認識データセットを構築しました。
- 参考スコア(独自算出の注目度): 9.547947845734992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Event cameras are bio-inspired sensors that capture the intensity changes asynchronously and output event streams with distinct advantages, such as high temporal resolution. To exploit event cameras for object/action recognition, existing methods predominantly sample and aggregate events in a second-level duration at every fixed temporal interval (or frequency). However, they often face difficulties in capturing the spatiotemporal relationships for longer, e.g., minute-level, events and generalizing across varying temporal frequencies. To fill the gap, we present a novel framework, dubbed PAST-SSM, exhibiting superior capacity in recognizing events with arbitrary duration (e.g., 0.1s to 4.5s) and generalizing to varying inference frequencies. Our key insight is to learn the spatiotemporal relationships from the encoded event features via the state space model (SSM) -- whose linear complexity makes it ideal for modeling high temporal resolution events with longer sequences. To achieve this goal, we first propose a Path-Adaptive Event Aggregation and Scan (PEAS) module to encode events of varying duration into features with fixed dimensions by adaptively scanning and selecting aggregated event frames. On top of PEAS, we introduce a novel Multi-faceted Selection Guiding (MSG) loss to minimize the randomness and redundancy of the encoded features. This subtly enhances the model generalization across different inference frequencies. Lastly, the SSM is employed to better learn the spatiotemporal properties from the encoded features. Moreover, we build a minute-level event-based recognition dataset, named ArDVS100, with arbitrary duration for the benefit of the community. Extensive experiments prove that our method outperforms prior arts by +3.45%, +0.38% and +8.31% on the DVS Action, SeAct and HARDVS datasets, respectively.
- Abstract(参考訳): イベントカメラはバイオインスパイアされたセンサーで、強度変化を非同期に捉え、時間分解能の高いイベントストリームを出力する。
イベントカメラをオブジェクト/アクション認識に利用するために、既存の手法は主に固定時間間隔(または周波数)毎に第2レベルのイベントをサンプリングし集約する。
しかし、時空間関係をより長く、例えば、分レベルの出来事を捉え、時間周波数の異なる事象を一般化することはしばしば困難である。
このギャップを埋めるために, PAST-SSMと呼ばれる新しいフレームワークを提案し, 任意の時間(例えば0.1秒から4.5秒)の事象を認識し, 様々な推測周波数に一般化する。
私たちの重要な洞察は、エンコードされたイベントの特徴からステートスペースモデル(SSM)を通じて時空間関係を学習することです。
この目的を達成するために,我々はまず,集合されたイベントフレームを適応的にスキャンし,選択することで,一定次元の特徴を持つ特徴に変化期間のイベントをエンコードするPEAS(Path-Adaptive Event Aggregation and Scan)モジュールを提案する。
PEASの上に、符号化された特徴のランダム性と冗長性を最小限に抑えるために、新しいMulti-faceted Selection Guiding (MSG)損失を導入する。
これにより、異なる推測周波数にわたるモデルの一般化が微妙に強化される。
最後に、SSMは符号化された特徴から時空間特性をよりよく学習するために使用される。
さらに、我々は、コミュニティの利益のために任意の期間で、ArDVS100という名前のマイクロレベルイベントベースの認識データセットを構築します。
我々の手法は,DVS Action, SeAct, HARDVSデータセットにおいて, それぞれ+3.45%, +0.38%, +8.31%の先行技術より優れていた。
関連論文リスト
- HR-INR: Continuous Space-Time Video Super-Resolution via Event Camera [22.208120663778043]
連続時空超解像(C-STVSR)は、任意のスケールで解像度とフレームレートを同時に向上することを目的としている。
我々は、暗黙的神経表現(INR)に基づいて、全体依存と局所運動の両方をキャプチャするHR-INRと呼ばれる新しいC-STVSRフレームワークを提案する。
次に、時間的埋め込みを持つ新しいINRベースのデコーダを提案し、時間的知覚場を大きくすることで、長期的依存関係をキャプチャする。
論文 参考訳(メタデータ) (2024-05-22T06:51:32Z) - Scalable Event-by-event Processing of Neuromorphic Sensory Signals With Deep State-Space Models [2.551844666707809]
イベントベースのセンサーはリアルタイム処理に適している。
現在の方法では、イベントをフレームに分解するか、イベントデータをイベント単位で直接処理する場合にスケールアップできない。
論文 参考訳(メタデータ) (2024-04-29T08:50:27Z) - MambaPupil: Bidirectional Selective Recurrent model for Event-based Eye tracking [50.26836546224782]
事象に基づく視線追跡は、高時間分解能と低冗長性で非常に有望である。
点眼、固定、ササード、スムーズな追跡を含む眼球運動パターンの多様性と急激さは、眼球運動の局所化に重要な課題を提起する。
本稿では、文脈時空間情報を完全に活用するための双方向の長期シーケンスモデリングと時間変化状態選択機構を提案する。
論文 参考訳(メタデータ) (2024-04-18T11:09:25Z) - XTSFormer: Cross-Temporal-Scale Transformer for Irregular Time Event
Prediction [9.240950990926796]
イベント予測は、過去のイベントシーケンスに基づいて、将来のイベントの時間とタイプを予測することを目的としている。
その重要性にもかかわらず、連続するイベント間の時間間隔の不規則性、サイクルの存在、周期性、マルチスケールのイベント相互作用など、いくつかの課題が存在する。
論文 参考訳(メタデータ) (2024-02-03T20:33:39Z) - Implicit Event-RGBD Neural SLAM [54.74363487009845]
神経性SLAMは近年顕著な進歩を遂げている。
既存の手法は、非理想的なシナリオにおいて重大な課題に直面します。
本稿では,最初のイベントRGBD暗黙的ニューラルSLAMフレームワークであるEN-SLAMを提案する。
論文 参考訳(メタデータ) (2023-11-18T08:48:58Z) - EvDNeRF: Reconstructing Event Data with Dynamic Neural Radiance Fields [80.94515892378053]
EvDNeRFは、イベントデータを生成し、イベントベースの動的NeRFをトレーニングするためのパイプラインである。
NeRFは幾何学ベースの学習可能なレンダリングを提供するが、イベントの以前の作業は静的なシーンの再構築のみを考慮していた。
各種イベントのバッチサイズをトレーニングすることにより、微細な時間解像度でイベントのテスト時間予測を改善することができることを示す。
論文 参考訳(メタデータ) (2023-10-03T21:08:41Z) - V2CE: Video to Continuous Events Simulator [1.1009908861287052]
ダイナミック・ビジョン・センサ(DVS)の特性を考慮した複数視点からのストリーム変換のための新しい手法を提案する。
慎重に設計された一連のタイムスタンプ損失は、生成されたイベントボクセルの品質を大幅に向上させるのに役立つ。
また,イベント・ボクセルからのイベント・タイムスタンプを連続的に再現するための局所動的推論手法を提案する。
論文 参考訳(メタデータ) (2023-09-16T06:06:53Z) - Event-based Stereo Visual Odometry with Native Temporal Resolution via
Continuous-time Gaussian Process Regression [3.4447129363520332]
イベントベースのカメラは、シーン内の個々の視覚的変化をユニークなタイミングでキャプチャする。
視覚計測パイプラインでは、時間的に密接な測定を1つの共通の時間で行うように近似することで、しばしば対処される。
本稿では,グループ化や近似を必要とせず,個々の事象計測時間を直接推定する完全ステレオVOパイプラインを提案する。
論文 参考訳(メタデータ) (2023-06-01T22:57:32Z) - Self-Supervised Scene Dynamic Recovery from Rolling Shutter Images and
Events [63.984927609545856]
任意の時間間隔間での画素単位のダイナミックさを予測するために,イベントベース/イントラフレーム補償器(E-IC)を提案する。
提案手法は,実世界のシナリオにおけるイベントベースRS2GSインバージョンにおいて,顕著な性能を示す。
論文 参考訳(メタデータ) (2023-04-14T05:30:02Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Generative Time Series Forecasting with Diffusion, Denoise, and
Disentanglement [51.55157852647306]
時系列予測は多くのアプリケーションにおいて非常に重要な課題である。
実世界の時系列データが短時間に記録されることが一般的であり、これはディープモデルと限られたノイズのある時系列との間に大きなギャップをもたらす。
本稿では,生成モデルを用いた時系列予測問題に対処し,拡散,雑音,ゆがみを備えた双方向変分自動エンコーダを提案する。
論文 参考訳(メタデータ) (2023-01-08T12:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。