論文の概要: HARDVS: Revisiting Human Activity Recognition with Dynamic Vision
Sensors
- arxiv url: http://arxiv.org/abs/2211.09648v1
- Date: Thu, 17 Nov 2022 16:48:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 15:09:49.337698
- Title: HARDVS: Revisiting Human Activity Recognition with Dynamic Vision
Sensors
- Title(参考訳): HARDVS:ダイナミックビジョンセンサーによる人間の活動認識の再考
- Authors: Xiao Wang, Zongzhen Wu, Bo Jiang, Zhimin Bao, Lin Zhu, Guoqi Li,
Yaowei Wang, Yonghong Tian
- Abstract要約: 人間の活動認識(HAR)アルゴリズムの主なストリームは、照明、高速な動き、プライバシー保護、大規模なエネルギー消費に苦しむRGBカメラに基づいて開発されている。
一方、生物学的にインスパイアされたイベントカメラは、高いダイナミックレンジ、密集した時空間分解能、低レイテンシ、低電力などの特徴により、大きな関心を集めている。
新たに発生するセンサであるため、HAR用の現実的な大規模データセットも存在しない。
我々は300のカテゴリと100万以上のイベントシーケンスを含む大規模ベンチマークデータセットHARDVSを提案する。
- 参考スコア(独自算出の注目度): 40.949347728083474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The main streams of human activity recognition (HAR) algorithms are developed
based on RGB cameras which are suffered from illumination, fast motion,
privacy-preserving, and large energy consumption. Meanwhile, the biologically
inspired event cameras attracted great interest due to their unique features,
such as high dynamic range, dense temporal but sparse spatial resolution, low
latency, low power, etc. As it is a newly arising sensor, even there is no
realistic large-scale dataset for HAR. Considering its great practical value,
in this paper, we propose a large-scale benchmark dataset to bridge this gap,
termed HARDVS, which contains 300 categories and more than 100K event
sequences. We evaluate and report the performance of multiple popular HAR
algorithms, which provide extensive baselines for future works to compare. More
importantly, we propose a novel spatial-temporal feature learning and fusion
framework, termed ESTF, for event stream based human activity recognition. It
first projects the event streams into spatial and temporal embeddings using
StemNet, then, encodes and fuses the dual-view representations using
Transformer networks. Finally, the dual features are concatenated and fed into
a classification head for activity prediction. Extensive experiments on
multiple datasets fully validated the effectiveness of our model. Both the
dataset and source code will be released on
\url{https://github.com/Event-AHU/HARDVS}.
- Abstract(参考訳): 人間の活動認識(HAR)アルゴリズムの主なストリームは、照明、高速な動き、プライバシー保護、大規模なエネルギー消費に苦しむRGBカメラに基づいて開発されている。
一方、生物学的にインスパイアされたイベントカメラは、高ダイナミックレンジ、高密度の時空間分解能、低レイテンシ、低消費電力などの特徴から、大きな関心を集めている。
新たに発生するセンサであるため、HAR用の現実的な大規模データセットも存在しない。
本稿では,このギャップを埋める大規模なベンチマークデータセットを提案し,300のカテゴリと100K以上のイベントシーケンスを含むHARDVSと呼ぶ。
我々は,複数の一般的なharアルゴリズムの性能を評価し,その性能を報告した。
さらに,イベントストリームに基づく人間行動認識のための新しい時空間特徴学習・融合フレームワークであるESTFを提案する。
まず、イベントストリームをstemnetを使って空間的および時間的埋め込みに投影し、次にトランスフォーマーネットワークを使用してデュアルビュー表現をエンコードし、融合する。
最後に、2つの特徴を連結し、アクティビティ予測のための分類ヘッドに入力する。
複数のデータセットに対する広範囲な実験により、モデルの有効性が完全に検証された。
データセットとソースコードは \url{https://github.com/Event-AHU/HARDVS} でリリースされる。
関連論文リスト
- SpikMamba: When SNN meets Mamba in Event-based Human Action Recognition [13.426390494116776]
人間の行動認識(HAR)は、ビデオ分析、監視、自律運転、ロボット工学、医療など、様々な分野で重要な役割を果たしている。
ほとんどのHARアルゴリズムは、詳細な視覚情報をキャプチャするRGB画像から開発されている。
イベントカメラは、全画像を撮影することなく、ピクセルレベルでのシーンの明るさ変化をわずかに捉えることで、有望な解決策を提供する。
論文 参考訳(メタデータ) (2024-10-22T07:00:43Z) - Event Stream based Human Action Recognition: A High-Definition Benchmark Dataset and Algorithms [29.577583619354314]
本稿では,CeleX-Vイベントカメラを用いた大規模かつ高精細度(1280×800ドル)の人間行動認識データセットを提案する。
より包括的なベンチマークデータセットを構築するために、今後比較する作業のために、20以上の主流なHARモデルを報告します。
論文 参考訳(メタデータ) (2024-08-19T07:52:20Z) - DailyDVS-200: A Comprehensive Benchmark Dataset for Event-Based Action Recognition [51.96660522869841]
DailyDVS-200は、イベントベースのアクション認識コミュニティに適したベンチマークデータセットである。
実世界のシナリオで200のアクションカテゴリをカバーし、47人の参加者によって記録され、22,000以上のイベントシーケンスで構成されている。
DailyDVS-200には14の属性がアノテートされており、記録されたアクションの詳細なキャラクタリゼーションが保証されている。
論文 参考訳(メタデータ) (2024-07-06T15:25:10Z) - SPADES: A Realistic Spacecraft Pose Estimation Dataset using Event
Sensing [9.583223655096077]
実際のターゲットデータセットへのアクセスが限られているため、アルゴリズムはしばしば合成データを使用して訓練され、実際のドメインに適用される。
イベントセンシングは過去にも行われており、シミュレーションと実世界のシナリオの間のドメインギャップを減らすことが示されている。
制御された実験室で取得した実イベントデータと、同じカメラ内在性を用いてイベントデータをシミュレートした新しいデータセットSPADESを提案する。
論文 参考訳(メタデータ) (2023-11-09T12:14:47Z) - Event-based Simultaneous Localization and Mapping: A Comprehensive Survey [52.73728442921428]
ローカライゼーションとマッピングタスクのための非同期および不規則なイベントストリームの利点を利用する、イベントベースのvSLAMアルゴリズムのレビュー。
Paperは、イベントベースのvSLAMメソッドを、特徴ベース、ダイレクト、モーション補償、ディープラーニングの4つのカテゴリに分類する。
論文 参考訳(メタデータ) (2023-04-19T16:21:14Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - HALSIE: Hybrid Approach to Learning Segmentation by Simultaneously
Exploiting Image and Event Modalities [6.543272301133159]
イベントカメラは、非同期イベントストリームを生成するためにピクセルごとの強度の変化を検出する。
リアルタイム自律システムにおいて、正確なセマンティックマップ検索のための大きな可能性を秘めている。
イベントセグメンテーションの既存の実装は、サブベースのパフォーマンスに悩まされている。
本研究では,ハイブリット・エンド・エンド・エンドの学習フレームワークHALSIEを提案する。
論文 参考訳(メタデータ) (2022-11-19T17:09:50Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。