論文の概要: EventCrab: Harnessing Frame and Point Synergy for Event-based Action Recognition and Beyond
- arxiv url: http://arxiv.org/abs/2411.18328v1
- Date: Wed, 27 Nov 2024 13:28:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:26:27.075083
- Title: EventCrab: Harnessing Frame and Point Synergy for Event-based Action Recognition and Beyond
- Title(参考訳): EventCrab: イベントベースのアクション認識のためのハーネスティングフレームとポイントシナジー
- Authors: Meiqi Cao, Xiangbo Shu, Jiachao Zhang, Rui Yan, Zechao Li, Jinhui Tang,
- Abstract要約: イベントベースの行動認識(EAR)は、従来の行動認識と比較して、時間的・プライバシー的保護の利点がある。
EventCrabは、密集イベントフレームのための"より軽い"フレーム特化ネットワークと、スパースイベントポイントのための"より重い"ポイント特化ネットワークとを包括的に統合するフレームワークである。
4つのデータセットの実験は、提案したEventCrabの大幅なパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 61.10181853363728
- License:
- Abstract: Event-based Action Recognition (EAR) possesses the advantages of high-temporal resolution capturing and privacy preservation compared with traditional action recognition. Current leading EAR solutions typically follow two regimes: project unconstructed event streams into dense constructed event frames and adopt powerful frame-specific networks, or employ lightweight point-specific networks to handle sparse unconstructed event points directly. However, such two regimes are blind to a fundamental issue: failing to accommodate the unique dense temporal and sparse spatial properties of asynchronous event data. In this article, we present a synergy-aware framework, i.e., EventCrab, that adeptly integrates the "lighter" frame-specific networks for dense event frames with the "heavier" point-specific networks for sparse event points, balancing accuracy and efficiency. Furthermore, we establish a joint frame-text-point representation space to bridge distinct event frames and points. In specific, to better exploit the unique spatiotemporal relationships inherent in asynchronous event points, we devise two strategies for the "heavier" point-specific embedding: i) a Spiking-like Context Learner (SCL) that extracts contextualized event points from raw event streams. ii) an Event Point Encoder (EPE) that further explores event-point long spatiotemporal features in a Hilbert-scan way. Experiments on four datasets demonstrate the significant performance of our proposed EventCrab, particularly gaining improvements of 5.17% on SeAct and 7.01% on HARDVS.
- Abstract(参考訳): イベントベースのアクション認識(EAR)は、従来のアクション認識と比較して、高時間分解能のキャプチャとプライバシ保護の利点がある。
建設されていないイベントストリームを密に構築されたイベントフレームにプロジェクト化し、強力なフレーム特化ネットワークを採用するか、あるいは疎いイベントポイントを直接扱うために軽量なポイント特化ネットワークを使用する。
しかし、このような2つのレギュレーションは、非同期イベントデータの時間的および空間的特異性に固有の問題に対応できないという根本的な問題に盲目である。
本稿では,高密度イベントフレームのための"より軽い"フレーム特化ネットワークと,スパースイベントポイントのための"より重い"ポイント特化ネットワークとを密に統合し,精度と効率のバランスをとる,シナジー対応フレームワークであるEventCrabを提案する。
さらに、異なるイベントフレームとポイントをブリッジするために、共同フレーム-テキスト-ポイント表現空間を確立する。
具体的には、非同期イベントポイントに固有のユニークな時空間的関係をよりうまく活用するために、"より重い"ポイント固有の埋め込みのための2つの戦略を考案します。
一 生のイベントストリームから文脈化されたイベントポイントを抽出する、スパイキングのようなコンテキストラーナー(SCL)。
二 イベントポイントエンコーダ(EPE)で、ヒルベルトスキャン方式で、イベントポイント長時空間の特徴をさらに探求する。
4つのデータセットの実験では、提案したEventCrabの大幅なパフォーマンス、特にSeActの5.17%、HARDVSの7.01%の改善が示されている。
関連論文リスト
- Dynamic Subframe Splitting and Spatio-Temporal Motion Entangled Sparse Attention for RGB-E Tracking [32.86991031493605]
イベントベースのバイオニックカメラは、高時間分解能と高ダイナミックレンジで動的シーンをキャプチャする。
イベントストリームをよりきめ細かいイベントクラスタに分割する動的イベントサブフレーム分割戦略を提案する。
そこで我々は,事象特徴の時間的・空間的相互作用を高めるために,事象に基づくスパースアテンション機構を設計する。
論文 参考訳(メタデータ) (2024-09-26T06:12:08Z) - MambaPupil: Bidirectional Selective Recurrent model for Event-based Eye tracking [50.26836546224782]
事象に基づく視線追跡は、高時間分解能と低冗長性で非常に有望である。
点眼、固定、ササード、スムーズな追跡を含む眼球運動パターンの多様性と急激さは、眼球運動の局所化に重要な課題を提起する。
本稿では、文脈時空間情報を完全に活用するための双方向の長期シーケンスモデリングと時間変化状態選択機構を提案する。
論文 参考訳(メタデータ) (2024-04-18T11:09:25Z) - Implicit Event-RGBD Neural SLAM [54.74363487009845]
神経性SLAMは近年顕著な進歩を遂げている。
既存の手法は、非理想的なシナリオにおいて重大な課題に直面します。
本稿では,最初のイベントRGBD暗黙的ニューラルSLAMフレームワークであるEN-SLAMを提案する。
論文 参考訳(メタデータ) (2023-11-18T08:48:58Z) - SpikeMOT: Event-based Multi-Object Tracking with Sparse Motion Features [52.213656737672935]
SpikeMOTはイベントベースのマルチオブジェクトトラッカーである。
SpikeMOTはスパイクニューラルネットワークを使用して、オブジェクトに関連するイベントストリームからスパーステンポラルな特徴を抽出する。
論文 参考訳(メタデータ) (2023-09-29T05:13:43Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Event Transformer [43.193463048148374]
イベントカメラの消費電力が低く、マイクロ秒の明るさを捉える能力は、様々なコンピュータビジョンタスクにとって魅力的である。
既存のイベント表現方法は通常、イベントをフレーム、ボクセルグリッド、ディープニューラルネットワーク(DNN)のスパイクに変換する。
この研究はトークンベースの新しいイベント表現を導入し、各イベントはイベントトークンと呼ばれる基本的な処理ユニットと見なされる。
論文 参考訳(メタデータ) (2022-04-11T15:05:06Z) - Learning Constraints and Descriptive Segmentation for Subevent Detection [74.48201657623218]
本稿では,サブイベント検出とEventSeg予測の依存関係をキャプチャする制約を学習し,強制するアプローチを提案する。
我々は制約学習にRectifier Networksを採用し、学習した制約をニューラルネットワークの損失関数の正規化項に変換する。
論文 参考訳(メタデータ) (2021-09-13T20:50:37Z) - Event-LSTM: An Unsupervised and Asynchronous Learning-based
Representation for Event-based Data [8.931153235278831]
イベントカメラは、アクティビティ駆動のバイオインスパイアされたビジョンセンサーです。
LSTM層からなる教師なしオートエンコーダアーキテクチャであるEvent-LSTMを提案する。
また、最先端のイベントをデノージングプロセスにメモリを導入することで、デノージングを前進させます。
論文 参考訳(メタデータ) (2021-05-10T09:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。