Fugu-MT 論文翻訳(概要): Path-adaptive Spatio-Temporal State Space Model for Event-based Recognition with Arbitrary Duration

論文の概要: Path-adaptive Spatio-Temporal State Space Model for Event-based Recognition with Arbitrary Duration

arxiv url: http://arxiv.org/abs/2409.16953v1
Date: Wed, 25 Sep 2024 14:08:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-27 03:25:18.545771
Title: Path-adaptive Spatio-Temporal State Space Model for Event-based Recognition with Arbitrary Duration
Title（参考訳）: 任意時間付きイベントベース認識のためのパス適応時空間モデル
Authors: Jiazhou Zhou, Kanghao Chen, Lei Zhang, Lin Wang,
Abstract要約: イベントカメラはバイオインスパイアされたセンサーで、強度の変化を非同期に捉え、イベントストリームを出力する。本稿では, PAST-Act と呼ばれる新しいフレームワークを提案する。私たちはまた、コミュニティの利益のために任意の期間で、ArDVS100という名前の分レベルのイベントベースの認識データセットを構築しました。
参考スコア（独自算出の注目度）: 9.547947845734992
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Event cameras are bio-inspired sensors that capture the intensity changes asynchronously and output event streams with distinct advantages, such as high temporal resolution. To exploit event cameras for object/action recognition, existing methods predominantly sample and aggregate events in a second-level duration at every fixed temporal interval (or frequency). However, they often face difficulties in capturing the spatiotemporal relationships for longer, e.g., minute-level, events and generalizing across varying temporal frequencies. To fill the gap, we present a novel framework, dubbed PAST-SSM, exhibiting superior capacity in recognizing events with arbitrary duration (e.g., 0.1s to 4.5s) and generalizing to varying inference frequencies. Our key insight is to learn the spatiotemporal relationships from the encoded event features via the state space model (SSM) -- whose linear complexity makes it ideal for modeling high temporal resolution events with longer sequences. To achieve this goal, we first propose a Path-Adaptive Event Aggregation and Scan (PEAS) module to encode events of varying duration into features with fixed dimensions by adaptively scanning and selecting aggregated event frames. On top of PEAS, we introduce a novel Multi-faceted Selection Guiding (MSG) loss to minimize the randomness and redundancy of the encoded features. This subtly enhances the model generalization across different inference frequencies. Lastly, the SSM is employed to better learn the spatiotemporal properties from the encoded features. Moreover, we build a minute-level event-based recognition dataset, named ArDVS100, with arbitrary duration for the benefit of the community. Extensive experiments prove that our method outperforms prior arts by +3.45%, +0.38% and +8.31% on the DVS Action, SeAct and HARDVS datasets, respectively.
Abstract（参考訳）: イベントカメラはバイオインスパイアされたセンサーで、強度変化を非同期に捉え、時間分解能の高いイベントストリームを出力する。イベントカメラをオブジェクト/アクション認識に利用するために、既存の手法は主に固定時間間隔(または周波数)毎に第2レベルのイベントをサンプリングし集約する。しかし、時空間関係をより長く、例えば、分レベルの出来事を捉え、時間周波数の異なる事象を一般化することはしばしば困難である。このギャップを埋めるために, PAST-SSMと呼ばれる新しいフレームワークを提案し, 任意の時間(例えば0.1秒から4.5秒)の事象を認識し, 様々な推測周波数に一般化する。私たちの重要な洞察は、エンコードされたイベントの特徴からステートスペースモデル(SSM)を通じて時空間関係を学習することです。この目的を達成するために,我々はまず,集合されたイベントフレームを適応的にスキャンし,選択することで,一定次元の特徴を持つ特徴に変化期間のイベントをエンコードするPEAS(Path-Adaptive Event Aggregation and Scan)モジュールを提案する。 PEASの上に、符号化された特徴のランダム性と冗長性を最小限に抑えるために、新しいMulti-faceted Selection Guiding (MSG)損失を導入する。これにより、異なる推測周波数にわたるモデルの一般化が微妙に強化される。最後に、SSMは符号化された特徴から時空間特性をよりよく学習するために使用される。さらに、我々は、コミュニティの利益のために任意の期間で、ArDVS100という名前のマイクロレベルイベントベースの認識データセットを構築します。我々の手法は,DVS Action, SeAct, HARDVSデータセットにおいて, それぞれ+3.45%, +0.38%, +8.31%の先行技術より優れていた。

関連論文リスト

Event Signal Filtering via Probability Flux Estimation [58.31652473933809]
イベントは、非同期センシングを通じてシーンダイナミクスをキャプチャするための新しいパラダイムを提供するが、その固有のランダム性は、しばしば劣化した信号品質につながる。したがって、イベント信号フィルタリングは、この内部ランダム性を低減し、多様な取得条件をまたいだ一貫した出力を確保することで、忠実性を高めるために不可欠である。本稿ではイベント密度フローフィルタ(EDFilter)と呼ばれる生成オンラインフィルタリングフレームワークを紹介する。実験では、イベントフィルタリング、スーパーレゾリューション、イベントベースの直接追跡といったタスクでEDFilterのパフォーマンスを検証する。
論文参考訳（メタデータ） (2025-04-10T07:03:08Z)
Inter-event Interval Microscopy for Event Cameras [52.05337480169517]
イベントカメラは、革新的なバイオインスパイアされたセンサーであり、強度を直接知覚するのではなく、強度の変化を感知することで従来のカメラとは異なる。蛍光顕微鏡における静的および動的シーンの静的なイベントカメラを用いたイベント・ツー・インテンシティ変換を実現する。我々は,ハイダイナミックレンジや高速シナリオなど,様々な場面でIEIMatデータセットを収集した。
論文参考訳（メタデータ） (2025-04-07T11:05:13Z)
HR-INR: Continuous Space-Time Video Super-Resolution via Event Camera [22.208120663778043]
連続時空超解像(C-STVSR)は、任意のスケールで解像度とフレームレートを同時に向上することを目的としている。我々は、暗黙的神経表現(INR)に基づいて、全体依存と局所運動の両方をキャプチャするHR-INRと呼ばれる新しいC-STVSRフレームワークを提案する。次に、時間的埋め込みを持つ新しいINRベースのデコーダを提案し、時間的知覚場を大きくすることで、長期的依存関係をキャプチャする。
論文参考訳（メタデータ） (2024-05-22T06:51:32Z)
Scalable Event-by-event Processing of Neuromorphic Sensory Signals With Deep State-Space Models [2.551844666707809]
イベントベースのセンサーはリアルタイム処理に適している。現在の方法では、イベントをフレームに分解するか、イベントデータをイベント単位で直接処理する場合にスケールアップできない。
論文参考訳（メタデータ） (2024-04-29T08:50:27Z)
MambaPupil: Bidirectional Selective Recurrent model for Event-based Eye tracking [50.26836546224782]
事象に基づく視線追跡は、高時間分解能と低冗長性で非常に有望である。点眼、固定、ササード、スムーズな追跡を含む眼球運動パターンの多様性と急激さは、眼球運動の局所化に重要な課題を提起する。本稿では、文脈時空間情報を完全に活用するための双方向の長期シーケンスモデリングと時間変化状態選択機構を提案する。
論文参考訳（メタデータ） (2024-04-18T11:09:25Z)
TSLANet: Rethinking Transformers for Time Series Representation Learning [19.795353886621715]
時系列データは、その固有の長短の依存関係によって特徴づけられる。本稿では,時系列タスクの普遍的畳み込みモデルとして,新しい時系列軽量ネットワーク(TSLANet)を導入する。我々の実験では、TSLANetは分類、予測、異常検出にまたがる様々なタスクにおいて最先端のモデルよりも優れていることを示した。
論文参考訳（メタデータ） (2024-04-12T13:41:29Z)
XTSFormer: Cross-Temporal-Scale Transformer for Irregular Time Event Prediction [9.240950990926796]
イベント予測は、過去のイベントシーケンスに基づいて、将来のイベントの時間とタイプを予測することを目的としている。その重要性にもかかわらず、連続するイベント間の時間間隔の不規則性、サイクルの存在、周期性、マルチスケールのイベント相互作用など、いくつかの課題が存在する。
論文参考訳（メタデータ） (2024-02-03T20:33:39Z)
Implicit Event-RGBD Neural SLAM [54.74363487009845]
神経性SLAMは近年顕著な進歩を遂げている。既存の手法は、非理想的なシナリオにおいて重大な課題に直面します。本稿では,最初のイベントRGBD暗黙的ニューラルSLAMフレームワークであるEN-SLAMを提案する。
論文参考訳（メタデータ） (2023-11-18T08:48:58Z)
EvDNeRF: Reconstructing Event Data with Dynamic Neural Radiance Fields [80.94515892378053]
EvDNeRFは、イベントデータを生成し、イベントベースの動的NeRFをトレーニングするためのパイプラインである。 NeRFは幾何学ベースの学習可能なレンダリングを提供するが、イベントの以前の作業は静的なシーンの再構築のみを考慮していた。各種イベントのバッチサイズをトレーニングすることにより、微細な時間解像度でイベントのテスト時間予測を改善することができることを示す。
論文参考訳（メタデータ） (2023-10-03T21:08:41Z)
V2CE: Video to Continuous Events Simulator [1.1009908861287052]
ダイナミック・ビジョン・センサ(DVS)の特性を考慮した複数視点からのストリーム変換のための新しい手法を提案する。慎重に設計された一連のタイムスタンプ損失は、生成されたイベントボクセルの品質を大幅に向上させるのに役立つ。また,イベント・ボクセルからのイベント・タイムスタンプを連続的に再現するための局所動的推論手法を提案する。
論文参考訳（メタデータ） (2023-09-16T06:06:53Z)
Event-based Stereo Visual Odometry with Native Temporal Resolution via Continuous-time Gaussian Process Regression [3.4447129363520332]
イベントベースのカメラは、シーン内の個々の視覚的変化をユニークなタイミングでキャプチャする。視覚計測パイプラインでは、時間的に密接な測定を1つの共通の時間で行うように近似することで、しばしば対処される。本稿では,グループ化や近似を必要とせず,個々の事象計測時間を直接推定する完全ステレオVOパイプラインを提案する。
論文参考訳（メタデータ） (2023-06-01T22:57:32Z)
Self-Supervised Scene Dynamic Recovery from Rolling Shutter Images and Events [63.984927609545856]
任意の時間間隔間での画素単位のダイナミックさを予測するために,イベントベース/イントラフレーム補償器(E-IC)を提案する。提案手法は,実世界のシナリオにおけるイベントベースRS2GSインバージョンにおいて,顕著な性能を示す。
論文参考訳（メタデータ） (2023-04-14T05:30:02Z)
Dual Memory Aggregation Network for Event-Based Object Detection with Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文参考訳（メタデータ） (2023-03-17T12:12:41Z)
Generative Time Series Forecasting with Diffusion, Denoise, and Disentanglement [51.55157852647306]
時系列予測は多くのアプリケーションにおいて非常に重要な課題である。実世界の時系列データが短時間に記録されることが一般的であり、これはディープモデルと限られたノイズのある時系列との間に大きなギャップをもたらす。本稿では,生成モデルを用いた時系列予測問題に対処し,拡散,雑音,ゆがみを備えた双方向変分自動エンコーダを提案する。
論文参考訳（メタデータ） (2023-01-08T12:20:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。