論文の概要: Event Stream based Human Action Recognition: A High-Definition Benchmark Dataset and Algorithms
- arxiv url: http://arxiv.org/abs/2408.09764v1
- Date: Mon, 19 Aug 2024 07:52:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 17:14:27.199911
- Title: Event Stream based Human Action Recognition: A High-Definition Benchmark Dataset and Algorithms
- Title(参考訳): イベントストリームに基づくヒューマンアクション認識:高精細ベンチマークデータセットとアルゴリズム
- Authors: Xiao Wang, Shiao Wang, Pengpeng Shao, Bo Jiang, Lin Zhu, Yonghong Tian,
- Abstract要約: 本稿では,CeleX-Vイベントカメラを用いた大規模かつ高精細度(1280×800ドル)の人間行動認識データセットを提案する。
より包括的なベンチマークデータセットを構築するために、今後比較する作業のために、20以上の主流なHARモデルを報告します。
- 参考スコア(独自算出の注目度): 29.577583619354314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human Action Recognition (HAR) stands as a pivotal research domain in both computer vision and artificial intelligence, with RGB cameras dominating as the preferred tool for investigation and innovation in this field. However, in real-world applications, RGB cameras encounter numerous challenges, including light conditions, fast motion, and privacy concerns. Consequently, bio-inspired event cameras have garnered increasing attention due to their advantages of low energy consumption, high dynamic range, etc. Nevertheless, most existing event-based HAR datasets are low resolution ($346 \times 260$). In this paper, we propose a large-scale, high-definition ($1280 \times 800$) human action recognition dataset based on the CeleX-V event camera, termed CeleX-HAR. It encompasses 150 commonly occurring action categories, comprising a total of 124,625 video sequences. Various factors such as multi-view, illumination, action speed, and occlusion are considered when recording these data. To build a more comprehensive benchmark dataset, we report over 20 mainstream HAR models for future works to compare. In addition, we also propose a novel Mamba vision backbone network for event stream based HAR, termed EVMamba, which equips the spatial plane multi-directional scanning and novel voxel temporal scanning mechanism. By encoding and mining the spatio-temporal information of event streams, our EVMamba has achieved favorable results across multiple datasets. Both the dataset and source code will be released on \url{https://github.com/Event-AHU/CeleX-HAR}
- Abstract(参考訳): HAR(Human Action Recognition)は、コンピュータビジョンと人工知能の両方において重要な研究領域であり、RGBカメラがこの分野における調査と革新のツールとして好まれている。
しかし、現実世界のアプリケーションでは、RGBカメラは光条件、高速モーション、プライバシーの懸念など、多くの課題に直面している。
その結果,バイオインスパイアされたイベントカメラは,低消費電力,高ダイナミックレンジなどの利点により注目度が高まっている。
それでも、既存のイベントベースのHARデータセットのほとんどは、低解像度(346 \times 260$)である。
本稿では,CeleX-Vイベントカメラ(CeleX-HAR)をベースとした大規模かつ高解像度(1280 \times 800$)の人行動認識データセットを提案する。
150のアクションカテゴリを含み、合計124,625の動画シーケンスで構成されている。
これらのデータを記録する際には、マルチビュー、照明、動作速度、閉塞などの様々な要因が考慮される。
より包括的なベンチマークデータセットを構築するために、今後比較する作業のために、20以上の主流なHARモデルを報告します。
さらに、イベントストリームに基づくHARのための新しいMambaビジョンバックボーンネットワーク、EVMambaを提案し、空間平面多方向走査と新しいボクセル時間走査機構を備える。
イベントストリームの時空間情報をエンコードしてマイニングすることで、EVMambaは複数のデータセットにまたがって良好な結果を得ました。
データセットとソースコードは \url{https://github.com/Event-AHU/CeleX-HAR} でリリースされる。
関連論文リスト
- SpikMamba: When SNN meets Mamba in Event-based Human Action Recognition [13.426390494116776]
人間の行動認識(HAR)は、ビデオ分析、監視、自律運転、ロボット工学、医療など、様々な分野で重要な役割を果たしている。
ほとんどのHARアルゴリズムは、詳細な視覚情報をキャプチャするRGB画像から開発されている。
イベントカメラは、全画像を撮影することなく、ピクセルレベルでのシーンの明るさ変化をわずかに捉えることで、有望な解決策を提供する。
論文 参考訳(メタデータ) (2024-10-22T07:00:43Z) - DailyDVS-200: A Comprehensive Benchmark Dataset for Event-Based Action Recognition [51.96660522869841]
DailyDVS-200は、イベントベースのアクション認識コミュニティに適したベンチマークデータセットである。
実世界のシナリオで200のアクションカテゴリをカバーし、47人の参加者によって記録され、22,000以上のイベントシーケンスで構成されている。
DailyDVS-200には14の属性がアノテートされており、記録されたアクションの詳細なキャラクタリゼーションが保証されている。
論文 参考訳(メタデータ) (2024-07-06T15:25:10Z) - Event Stream-based Visual Object Tracking: A High-Resolution Benchmark
Dataset and A Novel Baseline [38.42400442371156]
既存の作業は、整列したRGBとイベントデータを使用して正確なトラッキングを行うか、イベントベースのトラッカーを直接学習する。
本稿では,知識伝達を促進するために,学習中に多モード/多ビュー情報を十分に活用できる新しい階層型知識蒸留フレームワークを提案する。
EventVOTという,最初の大規模高解像度(1280×720$)のデータセットを提案する。1141のビデオが収録されており,歩行者や自動車,UAV,ピンポンなど,幅広いカテゴリをカバーする。
論文 参考訳(メタデータ) (2023-09-26T01:42:26Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Event-based Simultaneous Localization and Mapping: A Comprehensive Survey [52.73728442921428]
ローカライゼーションとマッピングタスクのための非同期および不規則なイベントストリームの利点を利用する、イベントベースのvSLAMアルゴリズムのレビュー。
Paperは、イベントベースのvSLAMメソッドを、特徴ベース、ダイレクト、モーション補償、ディープラーニングの4つのカテゴリに分類する。
論文 参考訳(メタデータ) (2023-04-19T16:21:14Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - HARDVS: Revisiting Human Activity Recognition with Dynamic Vision
Sensors [40.949347728083474]
人間の活動認識(HAR)アルゴリズムの主なストリームは、照明、高速な動き、プライバシー保護、大規模なエネルギー消費に苦しむRGBカメラに基づいて開発されている。
一方、生物学的にインスパイアされたイベントカメラは、高いダイナミックレンジ、密集した時空間分解能、低レイテンシ、低電力などの特徴により、大きな関心を集めている。
新たに発生するセンサであるため、HAR用の現実的な大規模データセットも存在しない。
我々は300のカテゴリと100万以上のイベントシーケンスを含む大規模ベンチマークデータセットHARDVSを提案する。
論文 参考訳(メタデータ) (2022-11-17T16:48:50Z) - TUM-VIE: The TUM Stereo Visual-Inertial Event Dataset [50.8779574716494]
イベントカメラはバイオインスパイアされた視覚センサーで、ピクセルごとの明るさの変化を測定する。
これらは、低レイテンシ、高ダイナミックレンジ、高時間分解能、低消費電力など、従来のフレームベースのカメラよりも多くの利点を提供する。
イベントカメラを用いた3次元認識・ナビゲーションアルゴリズムの開発を促進するため,TUM-VIEデータセットを提案する。
論文 参考訳(メタデータ) (2021-08-16T19:53:56Z) - VisEvent: Reliable Object Tracking via Collaboration of Frame and Event
Flows [93.54888104118822]
このタスクには現実的でスケールしたデータセットがないため、大規模なVisible-Eventベンチマーク(VisEventと呼ぶ)を提案する。
私たちのデータセットは、低照度、高速、背景乱雑なシナリオ下でキャプチャされた820のビデオペアで構成されています。
VisEventに基づいて、イベントフローをイベントイメージに変換し、30以上のベースラインメソッドを構築します。
論文 参考訳(メタデータ) (2021-08-11T03:55:12Z) - Event-based Robotic Grasping Detection with Neuromorphic Vision Sensor
and Event-Stream Dataset [8.030163836902299]
ニューロモルフィック・ビジョンは、小さくて若い研究コミュニティである。従来のフレームベースのコンピュータビジョンと比較すると、ニューロモルフィック・ビジョンは小さくて若い研究コミュニティである。
91個のオブジェクトからなるイベントストリームデータセットという,ロボットによる把握データセットを構築した。
リードが高周波でブリンクするため、Event-Streamデータセットは1kHzの高周波でアノテートされる。
我々は、角度学習問題を回帰ではなく分類として考慮した、検出を把握するためのディープニューラルネットワークを開発した。
論文 参考訳(メタデータ) (2020-04-28T16:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。