論文の概要: x-RAGE: eXtended Reality -- Action & Gesture Events Dataset
- arxiv url: http://arxiv.org/abs/2410.19486v1
- Date: Fri, 25 Oct 2024 11:44:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:35:50.641609
- Title: x-RAGE: eXtended Reality -- Action & Gesture Events Dataset
- Title(参考訳): x-RAGE: eXtended Reality -- Action & Gesture Eventsデータセット
- Authors: Vivek Parmar, Dwijay Bane, Syed Shakib Sarwar, Kleber Stangherlin, Barbara De Salvo, Manan Suri,
- Abstract要約: 我々は、XR中心のジェスチャー認識のためのニューロモルフィックで低消費電力のソリューションを実現するための、最初のイベントカメラベースのエゴセントリックジェスチャーデータセットを提案する。
データセットは、https://gitlab.com/NVM_IITD_Research/xrage.com/で公開されています。
- 参考スコア(独自算出の注目度): 5.068559907583171
- License:
- Abstract: With the emergence of the Metaverse and focus on wearable devices in the recent years gesture based human-computer interaction has gained significance. To enable gesture recognition for VR/AR headsets and glasses several datasets focusing on egocentric i.e. first-person view have emerged in recent years. However, standard frame-based vision suffers from limitations in data bandwidth requirements as well as ability to capture fast motions. To overcome these limitation bio-inspired approaches such as event-based cameras present an attractive alternative. In this work, we present the first event-camera based egocentric gesture dataset for enabling neuromorphic, low-power solutions for XR-centric gesture recognition. The dataset has been made available publicly at the following URL: https://gitlab.com/NVM_IITD_Research/xrage.
- Abstract(参考訳): 近年、Metaverseが出現し、ウェアラブルデバイスに焦点が当てられ、ジェスチャーに基づく人間とコンピュータのインタラクションが重要になっている。
VR/ARヘッドセットとメガネのジェスチャー認識を可能にするために、エゴセントリックな視点に焦点を当てたいくつかのデータセットが近年出現している。
しかし、標準的なフレームベースのビジョンは、データ帯域幅の要件の制限と高速な動きをキャプチャする能力に悩まされている。
このような制限を克服するために、イベントベースのカメラのようなバイオインスパイアされたアプローチは魅力的な選択肢となる。
本研究では、XR中心のジェスチャー認識のためのニューロモルフィックで低消費電力な解を実現するための、イベントカメラベースの最初のジェスチャ・データセットを提案する。
データセットは、https://gitlab.com/NVM_IITD_Research/xrage.com/で公開されている。
関連論文リスト
- Event Stream based Human Action Recognition: A High-Definition Benchmark Dataset and Algorithms [29.577583619354314]
本稿では,CeleX-Vイベントカメラを用いた大規模かつ高精細度(1280×800ドル)の人間行動認識データセットを提案する。
より包括的なベンチマークデータセットを構築するために、今後比較する作業のために、20以上の主流なHARモデルを報告します。
論文 参考訳(メタデータ) (2024-08-19T07:52:20Z) - DailyDVS-200: A Comprehensive Benchmark Dataset for Event-Based Action Recognition [51.96660522869841]
DailyDVS-200は、イベントベースのアクション認識コミュニティに適したベンチマークデータセットである。
実世界のシナリオで200のアクションカテゴリをカバーし、47人の参加者によって記録され、22,000以上のイベントシーケンスで構成されている。
DailyDVS-200には14の属性がアノテートされており、記録されたアクションの詳細なキャラクタリゼーションが保証されている。
論文 参考訳(メタデータ) (2024-07-06T15:25:10Z) - X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization [56.75782714530429]
我々はX-MICと呼ぶクロスモーダル適応フレームワークを提案する。
私たちのパイプラインは、凍結したテキストの埋め込みを、共有された埋め込み空間内で、それぞれのエゴセントリックなビデオにアライメントすることを学びました。
これにより、各エゴセントリックビデオへのテキスト埋め込みのアライメントが向上し、データセットの一般化が大幅に向上する。
論文 参考訳(メタデータ) (2024-03-28T19:45:35Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Event-Free Moving Object Segmentation from Moving Ego Vehicle [88.33470650615162]
動的シーンにおけるオブジェクトセグメンテーション(MOS)の移動は、自律運転において重要で困難だが、未調査の研究テーマである。
ほとんどのセグメンテーション法は、光学フローマップから得られるモーションキューを利用する。
我々は,光学的フローに頼らずにリッチなモーションキューを提供する,より優れた映像理解のためのイベントカメラを活用することを提案する。
論文 参考訳(メタデータ) (2023-04-28T23:43:10Z) - HARDVS: Revisiting Human Activity Recognition with Dynamic Vision
Sensors [40.949347728083474]
人間の活動認識(HAR)アルゴリズムの主なストリームは、照明、高速な動き、プライバシー保護、大規模なエネルギー消費に苦しむRGBカメラに基づいて開発されている。
一方、生物学的にインスパイアされたイベントカメラは、高いダイナミックレンジ、密集した時空間分解能、低レイテンシ、低電力などの特徴により、大きな関心を集めている。
新たに発生するセンサであるため、HAR用の現実的な大規模データセットも存在しない。
我々は300のカテゴリと100万以上のイベントシーケンスを含む大規模ベンチマークデータセットHARDVSを提案する。
論文 参考訳(メタデータ) (2022-11-17T16:48:50Z) - HaGRID - HAnd Gesture Recognition Image Dataset [79.21033185563167]
本稿では,ハンドジェスチャ認識システム構築のための巨大なデータセットであるHaGRIDを紹介し,それを管理するデバイスとのインタラクションに着目した。
ジェスチャーは静的だが、特にいくつかの動的ジェスチャーを設計する能力のために拾われた。
HaGRIDには54,800の画像とジェスチャーラベル付きバウンディングボックスアノテーションが含まれており、手検出とジェスチャー分類のタスクを解決している。
論文 参考訳(メタデータ) (2022-06-16T14:41:32Z) - EgoBody: Human Body Shape, Motion and Social Interactions from
Head-Mounted Devices [76.50816193153098]
EgoBodyは複雑な3Dシーンにおけるソーシャルインタラクションのための新しい大規模データセットである。
私たちはMicrosoft HoloLens2ヘッドセットを使って、RGB、奥行き、視線、頭と手のトラッキングなど、リッチなエゴセントリックなデータストリームを記録しています。
正確な3Dグラウンドトルースを得るため、マルチKinectリグでヘッドセットを校正し、多視点RGB-Dフレームに表現力のあるSMPL-Xボディーメッシュを適合させる。
論文 参考訳(メタデータ) (2021-12-14T18:41:28Z) - Facial Expression Recognition Under Partial Occlusion from Virtual
Reality Headsets based on Transfer Learning [0.0]
畳み込みニューラルネットワークに基づくアプローチは、顔認識タスクに適用可能であることが証明されたため、広く採用されている。
しかし、頭部に装着したVRヘッドセットを装着して顔を認識することは、顔の上半分が完全に隠されているため、難しい作業である。
既存のFERデータセットに適用可能なSamsung Gear VRヘッドセットによる閉塞をシミュレートする幾何学的モデルを提案する。
論文 参考訳(メタデータ) (2020-08-12T20:25:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。