論文の概要: PSTTS: A Plug-and-Play Token Selector for Efficient Event-based Spatio-temporal Representation Learning
- arxiv url: http://arxiv.org/abs/2509.22481v1
- Date: Fri, 26 Sep 2025 15:30:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.547318
- Title: PSTTS: A Plug-and-Play Token Selector for Efficient Event-based Spatio-temporal Representation Learning
- Title(参考訳): PSTTS: 効率的なイベントベース時空間表現学習のためのプラグアンドプレイトークンセレクタ
- Authors: Xiangmo Zhao, Nan Yang, Yang Wang, Zhanwen Liu,
- Abstract要約: イベントデータに対するPSTTS(Progressive Spatio-temporal Token Selection)を提案する。
PSTTSは、生のイベントデータに埋め込まれた時間的・時間的分布特性を利用して、冗長トークンを効果的に識別し、破棄する。
PSTTSはFLOPを29-43.6%削減し、FPSを21.6-41.3%増加させた。
- 参考スコア(独自算出の注目度): 25.271901669843363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mainstream event-based spatio-temporal representation learning methods typically process event streams by converting them into sequences of event frames, achieving remarkable performance. However, they neglect the high spatial sparsity and inter-frame motion redundancy inherent in event frame sequences, leading to significant computational overhead. Existing token sparsification methods for RGB videos rely on unreliable intermediate token representations and neglect the influence of event noise, making them ineffective for direct application to event data. In this paper, we propose Progressive Spatio-Temporal Token Selection (PSTTS), a Plug-and-Play module for event data without introducing any additional parameters. PSTTS exploits the spatio-temporal distribution characteristics embedded in raw event data to effectively identify and discard spatio-temporal redundant tokens, achieving an optimal trade-off between accuracy and efficiency. Specifically, PSTTS consists of two stages, Spatial Token Purification and Temporal Token Selection. Spatial Token Purification discards noise and non-event regions by assessing the spatio-temporal consistency of events within each event frame to prevent interference with subsequent temporal redundancy evaluation. Temporal Token Selection evaluates the motion pattern similarity between adjacent event frames, precisely identifying and removing redundant temporal information. We apply PSTTS to four representative backbones UniformerV2, VideoSwin, EVMamba, and ExACT on the HARDVS, DailyDVS-200, and SeACT datasets. Experimental results demonstrate that PSTTS achieves significant efficiency improvements. Specifically, PSTTS reduces FLOPs by 29-43.6% and increases FPS by 21.6-41.3% on the DailyDVS-200 dataset, while maintaining task accuracy. Our code will be available.
- Abstract(参考訳): メインストリームのイベントベースの時空間表現学習手法は、典型的にはイベントストリームをイベントフレームのシーケンスに変換して、顕著なパフォーマンスを達成する。
しかし、イベント・フレーム・シーケンスに固有の空間空間的間隔とフレーム間運動の冗長性を無視し、計算オーバーヘッドを著しく高める。
既存のRGBビデオのトークンスペーシフィケーション手法は信頼性の低い中間トークン表現に依存しており、イベントノイズの影響を無視しているため、イベントデータへの直接適用には効果がない。
本稿では,PSTTS(Progressive Spatio-Temporal Token Selection)を提案する。
PSTTSは、生イベントデータに埋め込まれた時空間分布特性を利用して、時空間冗長トークンを効果的に識別・破棄し、精度と効率の最適なトレードオフを実現する。
具体的には、PSTTSは空間的トークン浄化と時間的トークン選択という2つの段階から構成される。
各イベントフレーム内の事象の時空間的一貫性を評価し、その後の時間的冗長性評価に干渉しないようにすることで、空間的トークン浄化はノイズと非イベント領域を捨てる。
時間的トークン選択は、隣接するイベントフレーム間の動作パターンの類似性を評価し、冗長な時間情報の正確な識別と除去を行う。
PSTTSは、UniformerV2、VideoSwin、EVMamba、ExACT on the HARDVS、DailyDVS-200、SeACTの4つの代表的なバックボーンに適用する。
実験結果から, PSTTSは高い効率向上が得られた。
具体的には、FLOPを29-43.6%削減し、タスク精度を維持しながらDailyDVS-200データセットでFPSを21.6-41.3%向上させる。
私たちのコードは利用可能です。
関連論文リスト
- Focus Through Motion: RGB-Event Collaborative Token Sparsification for Efficient Object Detection [56.88160531995454]
既存のRGBイベント検出手法は、特徴抽出と融合の間、両方のモダリティの低情報領域を均一に処理する。
マルチモーダル特徴の適応的コラボレーティブスカラー化を行うFocusMambaを提案する。
DSEC-Det と PKU-DAVIS-SOD データセットを用いた実験により,提案手法は精度と効率の両方において優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2025-09-04T04:18:46Z) - Efficient Event-Based Semantic Segmentation via Exploiting Frame-Event Fusion: A Hybrid Neural Network Approach [13.681130802391223]
イベントカメラは、その高時間分解能とその他の有利な性質により、画像セマンティックセグメンテーションに導入されている。
本稿では、イベントのためのスパイキングネットワークブランチと、フレームのためのニューラルネットワークブランチからなる、画像セマンティックセグメンテーションのための効率的なハイブリッドフレームワークを提案する。
具体的には,これら2つのブランチ間の相互作用を促進するために,Adaptive Temporal Weighting (ATW), Event-Driven Sparse (EDS), Channel Selection Fusion (CSF)モジュールの3つの特別なモジュールを紹介する。
論文 参考訳(メタデータ) (2025-07-04T18:30:28Z) - Self-Supervised Event Representations: Towards Accurate, Real-Time Perception on SoC FPGAs [0.0]
イベントカメラは、従来のフレームベースのセンサーよりも大きな利点がある。
疎結合で非同期なイベントストリームを効果的に処理することは依然として難しい。
本稿では,新しい自己監視イベント表現(SSER)手法を提案する。
論文 参考訳(メタデータ) (2025-05-12T13:32:08Z) - Labits: Layered Bidirectional Time Surfaces Representation for Event Camera-based Continuous Dense Trajectory Estimation [1.3416369506987165]
イベントカメラは、高時間分解能と低レイテンシで動的シーンをキャプチャする。
Labits: Layered Bidirectional Time Surfacesを紹介します。
提案手法は,従来のMultiFlowデータセットと比較して,トラジェクティブ終点誤差(TEPE)を49%削減する。
論文 参考訳(メタデータ) (2024-12-12T01:11:50Z) - EventCrab: Harnessing Frame and Point Synergy for Event-based Action Recognition and Beyond [61.10181853363728]
イベントベースの行動認識(EAR)は、従来の行動認識と比較して、時間的・プライバシー的保護の利点がある。
EventCrabは、密集イベントフレームのための"より軽い"フレーム特化ネットワークと、スパースイベントポイントのための"より重い"ポイント特化ネットワークとを包括的に統合するフレームワークである。
4つのデータセットの実験は、提案したEventCrabの大幅なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-27T13:28:57Z) - PASS: Path-selective State Space Model for Event-based Recognition [12.651829415097758]
イベントカメラは、高時間分解能などの利点を持つバイオインスパイアされたセンサーである。
当社のPASSフレームワークは,高次イベントモデリングに優れた能力を示す。
私たちの重要な洞察は、状態空間モデルを通じて適応的に符号化されたイベント機能を学ぶことです。
論文 参考訳(メタデータ) (2024-09-25T14:08:37Z) - Implicit Event-RGBD Neural SLAM [54.74363487009845]
神経性SLAMは近年顕著な進歩を遂げている。
既存の手法は、非理想的なシナリオにおいて重大な課題に直面します。
本稿では,最初のイベントRGBD暗黙的ニューラルSLAMフレームワークであるEN-SLAMを提案する。
論文 参考訳(メタデータ) (2023-11-18T08:48:58Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Ultra-low Latency Spiking Neural Networks with Spatio-Temporal
Compression and Synaptic Convolutional Block [4.081968050250324]
スパイキングニューラルネットワーク(SNN)は、神経時間情報能力、低処理機能、高い生物学的妥当性を有する。
Neuro-MNIST、CIFAR10-S、DVS128ジェスチャデータセットは、個々のイベントをフレームに集約し、イベントストリーム分類の時間分解能を高める必要がある。
本研究では,NIST電流の時間ステップに個々のイベントを集約し,トレーニングや推論の遅延を低減する処理時間圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-03-18T15:14:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。