論文の概要: PASS: Path-selective State Space Model for Event-based Recognition
- arxiv url: http://arxiv.org/abs/2409.16953v2
- Date: Sun, 21 Sep 2025 13:23:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.613668
- Title: PASS: Path-selective State Space Model for Event-based Recognition
- Title(参考訳): PASS:イベントベース認識のためのパス選択状態空間モデル
- Authors: Jiazhou Zhou, Kanghao Chen, Lei Zhang, Lin Wang,
- Abstract要約: イベントカメラは、高時間分解能などの利点を持つバイオインスパイアされたセンサーである。
当社のPASSフレームワークは,高次イベントモデリングに優れた能力を示す。
私たちの重要な洞察は、状態空間モデルを通じて適応的に符号化されたイベント機能を学ぶことです。
- 参考スコア(独自算出の注目度): 12.651829415097758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Event cameras are bio-inspired sensors that capture intensity changes asynchronously with distinct advantages, such as high temporal resolution. Existing methods for event-based object/action recognition predominantly sample and convert event representation at every fixed temporal interval (or frequency). However, they are constrained to processing a limited number of event lengths and show poor frequency generalization, thus not fully leveraging the event's high temporal resolution. In this paper, we present our PASS framework, exhibiting superior capacity for spatiotemporal event modeling towards a larger number of event lengths and generalization across varying inference temporal frequencies. Our key insight is to learn adaptively encoded event features via the state space models (SSMs), whose linear complexity and generalization on input frequency make them ideal for processing high temporal resolution events. Specifically, we propose a Path-selective Event Aggregation and Scan (PEAS) module to encode events into features with fixed dimensions by adaptively scanning and selecting aggregated event presentations. On top of it, we introduce a novel Multi-faceted Selection Guiding (MSG) loss to minimize the randomness and redundancy of the encoded features during the PEAS selection process. Our method outperforms prior methods on five public datasets and shows strong generalization across varying inference frequencies with less accuracy drop (ours -8.62% vs. -20.69% for the baseline). Overall, PASS exhibits strong long spatiotemporal modeling for a broader distribution of event length (1-10^9), precise temporal perception, and generalization for real-world
- Abstract(参考訳): イベントカメラはバイオインスパイアされたセンサーで、高時間分解能などの異なる利点により、強度変化を非同期にキャプチャする。
イベントベースのオブジェクト/アクション認識のための既存の方法は、主に、固定時間間隔(または周波数)毎にイベント表現をサンプリングし、変換する。
しかし、それらは限られた回数のイベントを処理し、周波数の一般化が低いため、イベントの高時間分解能を完全に活用することができない。
本稿では,時空間の時間的変動を考慮した時間的イベントモデリングと,時間的変動の時間的変動に対する一般化に優れた能力を示すPASSフレームワークを提案する。
我々の重要な洞察は、状態空間モデル(SSM)を通して適応的に符号化されたイベントの特徴を学習することであり、その線形複雑性と入力周波数の一般化により、高時間分解能イベントの処理に最適である。
具体的には,イベントアグリゲーション・スキャン(PEAS)モジュールを提案し,イベントを適応的にスキャンし,集約されたイベントの提示を選択することで,イベントを一定の次元の機能にエンコードする。
さらに, PEAS選択過程における符号化特徴のランダム性と冗長性を最小限に抑えるために, 新たな多面選択誘導(MSG)損失を導入する。
提案手法は, 5つの公開データセットにおいて先行手法より優れ, 精度低下の少ない様々な推論周波数(ベースラインでは-8.62%対-20.69%)に対して強い一般化を示す。
PASSは、事象長(1-10^9)のより広い分布、正確な時間知覚、実世界の一般化のための強い長期時空間モデルを示す。
関連論文リスト
- Hybrid Spiking Vision Transformer for Object Detection with Event Cameras [19.967565219584056]
スパイキングニューラルネットワーク(SNN)は、低エネルギー消費とリッチダイナミクスを提供する、有望なアプローチとして登場した。
本研究では,イベントベース物体検出の性能向上を目的としたハイブリッドトランスフォーマー(HsVT)モデルを提案する。
実験結果から,HsVTはより少ないパラメータでイベント検出において大幅な性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-12T16:19:20Z) - Event Signal Filtering via Probability Flux Estimation [58.31652473933809]
イベントは、非同期センシングを通じてシーンダイナミクスをキャプチャするための新しいパラダイムを提供するが、その固有のランダム性は、しばしば劣化した信号品質につながる。
したがって、イベント信号フィルタリングは、この内部ランダム性を低減し、多様な取得条件をまたいだ一貫した出力を確保することで、忠実性を高めるために不可欠である。
本稿ではイベント密度フローフィルタ(EDFilter)と呼ばれる生成オンラインフィルタリングフレームワークを紹介する。
実験では、イベントフィルタリング、スーパーレゾリューション、イベントベースの直接追跡といったタスクでEDFilterのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2025-04-10T07:03:08Z) - Inter-event Interval Microscopy for Event Cameras [52.05337480169517]
イベントカメラは、革新的なバイオインスパイアされたセンサーであり、強度を直接知覚するのではなく、強度の変化を感知することで従来のカメラとは異なる。
蛍光顕微鏡における静的および動的シーンの静的なイベントカメラを用いたイベント・ツー・インテンシティ変換を実現する。
我々は,ハイダイナミックレンジや高速シナリオなど,様々な場面でIEIMatデータセットを収集した。
論文 参考訳(メタデータ) (2025-04-07T11:05:13Z) - FlexEvent: Towards Flexible Event-Frame Object Detection at Varying Operational Frequencies [45.82637829492951]
イベントカメラは、動的環境におけるリアルタイムの知覚に相容れないアドバンテージを提供する。
既存のイベント検出器は固定周波数のパラダイムによって制限される。
我々は、様々な周波数で検出できる新しいフレームワークFlexEventを提案する。
論文 参考訳(メタデータ) (2024-12-09T17:57:14Z) - HR-INR: Continuous Space-Time Video Super-Resolution via Event Camera [22.208120663778043]
連続時空超解像(C-STVSR)は、任意のスケールで解像度とフレームレートを同時に向上することを目的としている。
我々は、暗黙的神経表現(INR)に基づいて、全体依存と局所運動の両方をキャプチャするHR-INRと呼ばれる新しいC-STVSRフレームワークを提案する。
次に、時間的埋め込みを持つ新しいINRベースのデコーダを提案し、時間的知覚場を大きくすることで、長期的依存関係をキャプチャする。
論文 参考訳(メタデータ) (2024-05-22T06:51:32Z) - Scalable Event-by-event Processing of Neuromorphic Sensory Signals With Deep State-Space Models [2.551844666707809]
イベントベースのセンサーはリアルタイム処理に適している。
現在の方法では、イベントをフレームに分解するか、イベントデータをイベント単位で直接処理する場合にスケールアップできない。
論文 参考訳(メタデータ) (2024-04-29T08:50:27Z) - MambaPupil: Bidirectional Selective Recurrent model for Event-based Eye tracking [50.26836546224782]
事象に基づく視線追跡は、高時間分解能と低冗長性で非常に有望である。
点眼、固定、ササード、スムーズな追跡を含む眼球運動パターンの多様性と急激さは、眼球運動の局所化に重要な課題を提起する。
本稿では、文脈時空間情報を完全に活用するための双方向の長期シーケンスモデリングと時間変化状態選択機構を提案する。
論文 参考訳(メタデータ) (2024-04-18T11:09:25Z) - TSLANet: Rethinking Transformers for Time Series Representation Learning [19.795353886621715]
時系列データは、その固有の長短の依存関係によって特徴づけられる。
本稿では,時系列タスクの普遍的畳み込みモデルとして,新しい時系列軽量ネットワーク(TSLANet)を導入する。
我々の実験では、TSLANetは分類、予測、異常検出にまたがる様々なタスクにおいて最先端のモデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-04-12T13:41:29Z) - XTSFormer: Cross-Temporal-Scale Transformer for Irregular Time Event
Prediction [9.240950990926796]
イベント予測は、過去のイベントシーケンスに基づいて、将来のイベントの時間とタイプを予測することを目的としている。
その重要性にもかかわらず、連続するイベント間の時間間隔の不規則性、サイクルの存在、周期性、マルチスケールのイベント相互作用など、いくつかの課題が存在する。
論文 参考訳(メタデータ) (2024-02-03T20:33:39Z) - Implicit Event-RGBD Neural SLAM [54.74363487009845]
神経性SLAMは近年顕著な進歩を遂げている。
既存の手法は、非理想的なシナリオにおいて重大な課題に直面します。
本稿では,最初のイベントRGBD暗黙的ニューラルSLAMフレームワークであるEN-SLAMを提案する。
論文 参考訳(メタデータ) (2023-11-18T08:48:58Z) - EvDNeRF: Reconstructing Event Data with Dynamic Neural Radiance Fields [80.94515892378053]
EvDNeRFは、イベントデータを生成し、イベントベースの動的NeRFをトレーニングするためのパイプラインである。
NeRFは幾何学ベースの学習可能なレンダリングを提供するが、イベントの以前の作業は静的なシーンの再構築のみを考慮していた。
各種イベントのバッチサイズをトレーニングすることにより、微細な時間解像度でイベントのテスト時間予測を改善することができることを示す。
論文 参考訳(メタデータ) (2023-10-03T21:08:41Z) - V2CE: Video to Continuous Events Simulator [1.1009908861287052]
ダイナミック・ビジョン・センサ(DVS)の特性を考慮した複数視点からのストリーム変換のための新しい手法を提案する。
慎重に設計された一連のタイムスタンプ損失は、生成されたイベントボクセルの品質を大幅に向上させるのに役立つ。
また,イベント・ボクセルからのイベント・タイムスタンプを連続的に再現するための局所動的推論手法を提案する。
論文 参考訳(メタデータ) (2023-09-16T06:06:53Z) - Event-based Stereo Visual Odometry with Native Temporal Resolution via
Continuous-time Gaussian Process Regression [3.4447129363520332]
イベントベースのカメラは、シーン内の個々の視覚的変化をユニークなタイミングでキャプチャする。
視覚計測パイプラインでは、時間的に密接な測定を1つの共通の時間で行うように近似することで、しばしば対処される。
本稿では,グループ化や近似を必要とせず,個々の事象計測時間を直接推定する完全ステレオVOパイプラインを提案する。
論文 参考訳(メタデータ) (2023-06-01T22:57:32Z) - Self-Supervised Scene Dynamic Recovery from Rolling Shutter Images and
Events [63.984927609545856]
任意の時間間隔間での画素単位のダイナミックさを予測するために,イベントベース/イントラフレーム補償器(E-IC)を提案する。
提案手法は,実世界のシナリオにおけるイベントベースRS2GSインバージョンにおいて,顕著な性能を示す。
論文 参考訳(メタデータ) (2023-04-14T05:30:02Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Generative Time Series Forecasting with Diffusion, Denoise, and
Disentanglement [51.55157852647306]
時系列予測は多くのアプリケーションにおいて非常に重要な課題である。
実世界の時系列データが短時間に記録されることが一般的であり、これはディープモデルと限られたノイズのある時系列との間に大きなギャップをもたらす。
本稿では,生成モデルを用いた時系列予測問題に対処し,拡散,雑音,ゆがみを備えた双方向変分自動エンコーダを提案する。
論文 参考訳(メタデータ) (2023-01-08T12:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。