論文の概要: EgoEvGesture: Gesture Recognition Based on Egocentric Event Camera
- arxiv url: http://arxiv.org/abs/2503.12419v1
- Date: Sun, 16 Mar 2025 09:08:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:27:49.959795
- Title: EgoEvGesture: Gesture Recognition Based on Egocentric Event Camera
- Title(参考訳): EgoEvGesture: イベントカメラに基づくジェスチャー認識
- Authors: Luming Wang, Hao Shi, Xiaoting Yin, Kailun Yang, Kaiwei Wang,
- Abstract要約: 本稿では,イベントデータ処理に特化して設計された新しいネットワークアーキテクチャを提案する。
イベントカメラを用いたエゴセントリックなジェスチャー認識のための,最初の大規模データセットを構築した。
本手法は,7Mパラメータのみを含む不均一試験において62.7%の精度を達成し,最先端手法よりも3.1%高い精度を示した。
- 参考スコア(独自算出の注目度): 17.319375633192696
- License:
- Abstract: Egocentric gesture recognition is a pivotal technology for enhancing natural human-computer interaction, yet traditional RGB-based solutions suffer from motion blur and illumination variations in dynamic scenarios. While event cameras show distinct advantages in handling high dynamic range with ultra-low power consumption, existing RGB-based architectures face inherent limitations in processing asynchronous event streams due to their synchronous frame-based nature. Moreover, from an egocentric perspective, event cameras record data that include events generated by both head movements and hand gestures, thereby increasing the complexity of gesture recognition. To address this, we propose a novel network architecture specifically designed for event data processing, incorporating (1) a lightweight CNN with asymmetric depthwise convolutions to reduce parameters while preserving spatiotemporal features, (2) a plug-and-play state-space model as context block that decouples head movement noise from gesture dynamics, and (3) a parameter-free Bins-Temporal Shift Module (BSTM) that shifts features along bins and temporal dimensions to fuse sparse events efficiently. We further build the EgoEvGesture dataset, the first large-scale dataset for egocentric gesture recognition using event cameras. Experimental results demonstrate that our method achieves 62.7% accuracy in heterogeneous testing with only 7M parameters, 3.1% higher than state-of-the-art approaches. Notable misclassifications in freestyle motions stem from high inter-personal variability and unseen test patterns differing from training data. Moreover, our approach achieved a remarkable accuracy of 96.97% on DVS128 Gesture, demonstrating strong cross-dataset generalization capability. The dataset and models are made publicly available at https://github.com/3190105222/EgoEv_Gesture.
- Abstract(参考訳): エゴセントリックなジェスチャー認識は、自然な人間とコンピュータの相互作用を強化するための重要な技術であるが、従来のRGBベースのソリューションは、動的シナリオにおける動きのぼやけと照明のバリエーションに悩まされている。
イベントカメラは、高ダイナミックレンジを超低消費電力で処理する上で、明確な利点を示しているが、既存のRGBベースのアーキテクチャは、同期フレームベースの性質のため、非同期イベントストリームを処理する際に固有の制限に直面している。
さらに、エゴセントリックな視点から、イベントカメラは、頭部の動きと手のジェスチャーの両方によって生成されたイベントを含むデータを記録し、ジェスチャー認識の複雑さを増大させる。
これを解決するために,(1)時空間の特徴を保ちながらパラメータを非対称に深度に畳み込む軽量CNN,(2)ジェスチャー力学からヘッドモーションノイズを分離するコンテキストブロックとしてのプラグ・アンド・プレイ状態空間モデル,(3)時空間とビンに沿って特徴をシフトしてスパースイベントを効率的に融合するパラメータフリービン・テンポラルシフトモジュール(BSTM)を提案する。
EgoEvGestureデータセットは、イベントカメラを用いたエゴセントリックなジェスチャー認識のための最初の大規模データセットである。
実験の結果,7Mパラメータのみを用いた不均一試験では62.7%の精度が得られ,最先端手法よりも3.1%高い結果が得られた。
フリースタイルの動作における顕著な誤分類は、訓練データと異なる高い個人間変動と見えないテストパターンに起因する。
さらに,DVS128 Gestureでは96.97%の精度を達成し,強力なクロスデータセット一般化能力を示した。
データセットとモデルはhttps://github.com/3190105222/EgoEv_Gestureで公開されている。
関連論文リスト
- Dynamic Reconstruction from Neuromorphic Data [0.0]
ニューロモルフィックセンサーは、変化が非同期に起こっているピクセルにのみ変化を登録する。
これにより、ニューロモルフィックセンサーはマイクロ秒単位でサンプリングし、ダイナミクスを効率的に捉えることができる。
著者らが最近導入したものを含む既存のアプローチでは、従来の画像とニューロモルフィックイベントデータを組み合わせて再構築を行っている。
論文 参考訳(メタデータ) (2024-08-28T01:06:19Z) - A Novel Spike Transformer Network for Depth Estimation from Event Cameras via Cross-modality Knowledge Distillation [3.355813093377501]
イベントカメラは、非同期バイナリスパイクとして光強度の時間変化を符号化する。
従来の画像に基づく深度推定手法には、従来のスパイク出力とラベル付きデータセットの不足が大きな課題となっている。
本研究では, スパイキングデータのユニークな特性を利用して, 深度推定のための新しいエネルギー効率の高いスパイク駆動型トランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2024-04-26T11:32:53Z) - Neuromorphic Vision-based Motion Segmentation with Graph Transformer Neural Network [4.386534439007928]
本稿では,GTNNと呼ばれるグラフトランスフォーマーニューラルネットワークを用いたイベントベース動作分割アルゴリズムを提案する。
提案アルゴリズムは, イベント間の局所的および大域的相関を明らかにするために, 一連の非線形変換により, イベントストリームを3次元グラフとして処理する。
GTNNは、動的背景変動、動きパターン、および様々な大きさと速度を持つ複数の動的物体の存在下で、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-16T22:44:29Z) - Implicit Event-RGBD Neural SLAM [54.74363487009845]
神経性SLAMは近年顕著な進歩を遂げている。
既存の手法は、非理想的なシナリオにおいて重大な課題に直面します。
本稿では,最初のイベントRGBD暗黙的ニューラルSLAMフレームワークであるEN-SLAMを提案する。
論文 参考訳(メタデータ) (2023-11-18T08:48:58Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Event Camera-based Visual Odometry for Dynamic Motion Tracking of a
Legged Robot Using Adaptive Time Surface [5.341864681049579]
イベントカメラは高時間分解能とダイナミックレンジを提供しており、高速移動時のぼやけたRGB画像の問題を排除できる。
本稿では,従来の時間面におけるホワイトアウト問題とブラックアウト問題に対処する適応時間面(ATS)手法を提案する。
最後に,RGBとイベントベースの地図と画像の両方で3D-2Dアライメントを同時に行う非線形ポーズ最適化式を提案する。
論文 参考訳(メタデータ) (2023-05-15T19:03:45Z) - Asynchronous Optimisation for Event-based Visual Odometry [53.59879499700895]
イベントカメラは、低レイテンシと高ダイナミックレンジのために、ロボット知覚の新しい可能性を開く。
イベントベースビジュアル・オドメトリー(VO)に焦点をあてる
動作最適化のバックエンドとして非同期構造を提案する。
論文 参考訳(メタデータ) (2022-03-02T11:28:47Z) - Bridging the Gap between Events and Frames through Unsupervised Domain
Adaptation [57.22705137545853]
本稿では,ラベル付き画像とラベル付きイベントデータを用いてモデルを直接訓練するタスク転送手法を提案する。
生成イベントモデルを利用して、イベント機能をコンテンツとモーションに分割します。
われわれのアプローチは、イベントベースのニューラルネットワークのトレーニングのために、膨大な量の既存の画像データセットをアンロックする。
論文 参考訳(メタデータ) (2021-09-06T17:31:37Z) - Unsupervised Feature Learning for Event Data: Direct vs Inverse Problem
Formulation [53.850686395708905]
イベントベースのカメラは、ピクセルごとの明るさ変化の非同期ストリームを記録する。
本稿では,イベントデータからの表現学習のための単一層アーキテクチャに焦点を当てる。
我々は,最先端手法と比較して,認識精度が最大9%向上したことを示す。
論文 参考訳(メタデータ) (2020-09-23T10:40:03Z) - Event-based Asynchronous Sparse Convolutional Networks [54.094244806123235]
イベントカメラはバイオインスパイアされたセンサーで、非同期でスパースな「イベント」の形で画素ごとの明るさ変化に反応する。
同期画像のようなイベント表現で訓練されたモデルを、同じ出力を持つ非同期モデルに変換するための一般的なフレームワークを提案する。
理論的および実験的に、これは高容量同期ニューラルネットワークの計算複雑性と遅延を大幅に減少させることを示す。
論文 参考訳(メタデータ) (2020-03-20T08:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。