論文の概要: SpikMamba: When SNN meets Mamba in Event-based Human Action Recognition
- arxiv url: http://arxiv.org/abs/2410.16746v1
- Date: Tue, 22 Oct 2024 07:00:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:30:09.661153
- Title: SpikMamba: When SNN meets Mamba in Event-based Human Action Recognition
- Title(参考訳): SpikMamba: SNNがイベントベースのヒューマンアクション認識でMambaに出会ったとき
- Authors: Jiaqi Chen, Yan Yang, Shizhuo Deng, Da Teng, Liyuan Pan,
- Abstract要約: 人間の行動認識(HAR)は、ビデオ分析、監視、自律運転、ロボット工学、医療など、様々な分野で重要な役割を果たしている。
ほとんどのHARアルゴリズムは、詳細な視覚情報をキャプチャするRGB画像から開発されている。
イベントカメラは、全画像を撮影することなく、ピクセルレベルでのシーンの明るさ変化をわずかに捉えることで、有望な解決策を提供する。
- 参考スコア(独自算出の注目度): 13.426390494116776
- License:
- Abstract: Human action recognition (HAR) plays a key role in various applications such as video analysis, surveillance, autonomous driving, robotics, and healthcare. Most HAR algorithms are developed from RGB images, which capture detailed visual information. However, these algorithms raise concerns in privacy-sensitive environments due to the recording of identifiable features. Event cameras offer a promising solution by capturing scene brightness changes sparsely at the pixel level, without capturing full images. Moreover, event cameras have high dynamic ranges that can effectively handle scenarios with complex lighting conditions, such as low light or high contrast environments. However, using event cameras introduces challenges in modeling the spatially sparse and high temporal resolution event data for HAR. To address these issues, we propose the SpikMamba framework, which combines the energy efficiency of spiking neural networks and the long sequence modeling capability of Mamba to efficiently capture global features from spatially sparse and high a temporal resolution event data. Additionally, to improve the locality of modeling, a spiking window-based linear attention mechanism is used. Extensive experiments show that SpikMamba achieves remarkable recognition performance, surpassing the previous state-of-the-art by 1.45%, 7.22%, 0.15%, and 3.92% on the PAF, HARDVS, DVS128, and E-FAction datasets, respectively. The code is available at https://github.com/Typistchen/SpikMamba.
- Abstract(参考訳): 人間の行動認識(HAR)は、ビデオ分析、監視、自律運転、ロボット工学、医療など、様々な分野で重要な役割を果たしている。
ほとんどのHARアルゴリズムは、詳細な視覚情報をキャプチャするRGB画像から開発されている。
しかし、これらのアルゴリズムは、識別可能な特徴の記録のため、プライバシーに敏感な環境への関心を喚起する。
イベントカメラは、全画像を撮影することなく、ピクセルレベルでのシーンの明るさ変化をわずかに捉えることで、有望な解決策を提供する。
さらに、イベントカメラは、低照度や高コントラスト環境のような複雑な照明条件のシナリオを効果的に処理できる高いダイナミックレンジを有する。
しかし,イベントカメラを用いた場合,HARの空間的疎度・高時間分解能イベントデータをモデル化する上での課題が生じる。
これらの問題に対処するために,スパイクニューラルネットワークのエネルギー効率とMambaの長周期モデリング機能を組み合わせたSpikMambaフレームワークを提案する。
さらに、モデリングの局所性を改善するために、スパイキングウィンドウベースの線形アテンション機構を用いる。
大規模な実験により、SpikMambaは、PAF、HARDVS、DVS128、E-FActionデータセットで、それぞれ1.45%、7.22%、0.15%、および3.92%を上回り、顕著な認識性能を達成した。
コードはhttps://github.com/Typistchen/SpikMamba.comで入手できる。
関連論文リスト
- EvenNICER-SLAM: Event-based Neural Implicit Encoding SLAM [69.83383687049994]
密集した視覚的同時局所化とマッピングのための新しいアプローチである EvenNICER-SLAM を提案する。
EvenNICER-SLAMは、絶対輝度ではなく強度変化に対応するイベントカメラを内蔵している。
以上の結果から,イベントカメラによる高密度SLAMシステムの高速カメラ動作に対する堅牢性向上の可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-04T13:52:01Z) - Event Stream based Human Action Recognition: A High-Definition Benchmark Dataset and Algorithms [29.577583619354314]
本稿では,CeleX-Vイベントカメラを用いた大規模かつ高精細度(1280×800ドル)の人間行動認識データセットを提案する。
より包括的なベンチマークデータセットを構築するために、今後比較する作業のために、20以上の主流なHARモデルを報告します。
論文 参考訳(メタデータ) (2024-08-19T07:52:20Z) - Uncertainty-aware Bridge based Mobile-Former Network for Event-based Pattern Recognition [6.876867023375713]
イベントカメラは高いダイナミックレンジ、動きのぼやけがなく、消費電力も少ない。
パターン認識を効率化する軽量な不確実性対応情報伝搬方式Mobile-Formerネットワークを提案する。
論文 参考訳(メタデータ) (2024-01-20T05:26:28Z) - Implicit Event-RGBD Neural SLAM [54.74363487009845]
神経性SLAMは近年顕著な進歩を遂げている。
既存の手法は、非理想的なシナリオにおいて重大な課題に直面します。
本稿では,最初のイベントRGBD暗黙的ニューラルSLAMフレームワークであるEN-SLAMを提案する。
論文 参考訳(メタデータ) (2023-11-18T08:48:58Z) - Deformable Neural Radiance Fields using RGB and Event Cameras [65.40527279809474]
我々は,RGBとイベントカメラを用いた変形可能なニューラル放射場をモデル化する新しい手法を開発した。
提案手法は,イベントの非同期ストリームと疎RGBフレームを用いる。
現実的にレンダリングされたグラフィックと実世界のデータセットの両方で実施された実験は、提案手法の有益性を実証している。
論文 参考訳(メタデータ) (2023-09-15T14:19:36Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Event-based Simultaneous Localization and Mapping: A Comprehensive Survey [52.73728442921428]
ローカライゼーションとマッピングタスクのための非同期および不規則なイベントストリームの利点を利用する、イベントベースのvSLAMアルゴリズムのレビュー。
Paperは、イベントベースのvSLAMメソッドを、特徴ベース、ダイレクト、モーション補償、ディープラーニングの4つのカテゴリに分類する。
論文 参考訳(メタデータ) (2023-04-19T16:21:14Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - HARDVS: Revisiting Human Activity Recognition with Dynamic Vision
Sensors [40.949347728083474]
人間の活動認識(HAR)アルゴリズムの主なストリームは、照明、高速な動き、プライバシー保護、大規模なエネルギー消費に苦しむRGBカメラに基づいて開発されている。
一方、生物学的にインスパイアされたイベントカメラは、高いダイナミックレンジ、密集した時空間分解能、低レイテンシ、低電力などの特徴により、大きな関心を集めている。
新たに発生するセンサであるため、HAR用の現実的な大規模データセットも存在しない。
我々は300のカテゴリと100万以上のイベントシーケンスを含む大規模ベンチマークデータセットHARDVSを提案する。
論文 参考訳(メタデータ) (2022-11-17T16:48:50Z) - Learning to Detect Objects with a 1 Megapixel Event Camera [14.949946376335305]
イベントカメラは、高時間精度、低データレート、高ダイナミックレンジで視覚情報を符号化する。
フィールドの新規性のため、多くのビジョンタスクにおけるイベントベースのシステムの性能は、従来のフレームベースのソリューションに比べて依然として低い。
論文 参考訳(メタデータ) (2020-09-28T16:03:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。