論文の概要: EMHI: A Multimodal Egocentric Human Motion Dataset with HMD and Body-Worn IMUs
- arxiv url: http://arxiv.org/abs/2408.17168v1
- Date: Fri, 30 Aug 2024 10:12:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 15:38:25.352557
- Title: EMHI: A Multimodal Egocentric Human Motion Dataset with HMD and Body-Worn IMUs
- Title(参考訳): EMHI:HMDとBody-Worn IMUを用いたマルチモーダル人間中心型モーションデータセット
- Authors: Zhen Fan, Peng Dai, Zhuo Su, Xu Gao, Zheng Lv, Jiarui Zhang, Tianyuan Du, Guidong Wang, Yang Zhang,
- Abstract要約: ウェアラブルセンサを用いた人間中心のポーズ推定(HPE)はVR/ARアプリケーションに不可欠である。
ほとんどの手法は、エゴセントリック・ビュー・イメージまたはスパース慣性測定ユニット(IMU)信号にのみ依存する。
マルチモーダルなtextbfEgocentric human textbfMotion データセットである textbfHead-Mounted Display (HMD) と body-worn textbfIMU を提案する。
- 参考スコア(独自算出の注目度): 17.864281586189392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Egocentric human pose estimation (HPE) using wearable sensors is essential for VR/AR applications. Most methods rely solely on either egocentric-view images or sparse Inertial Measurement Unit (IMU) signals, leading to inaccuracies due to self-occlusion in images or the sparseness and drift of inertial sensors. Most importantly, the lack of real-world datasets containing both modalities is a major obstacle to progress in this field. To overcome the barrier, we propose EMHI, a multimodal \textbf{E}gocentric human \textbf{M}otion dataset with \textbf{H}ead-Mounted Display (HMD) and body-worn \textbf{I}MUs, with all data collected under the real VR product suite. Specifically, EMHI provides synchronized stereo images from downward-sloping cameras on the headset and IMU data from body-worn sensors, along with pose annotations in SMPL format. This dataset consists of 885 sequences captured by 58 subjects performing 39 actions, totaling about 28.5 hours of recording. We evaluate the annotations by comparing them with optical marker-based SMPL fitting results. To substantiate the reliability of our dataset, we introduce MEPoser, a new baseline method for multimodal egocentric HPE, which employs a multimodal fusion encoder, temporal feature encoder, and MLP-based regression heads. The experiments on EMHI show that MEPoser outperforms existing single-modal methods and demonstrates the value of our dataset in solving the problem of egocentric HPE. We believe the release of EMHI and the method could advance the research of egocentric HPE and expedite the practical implementation of this technology in VR/AR products.
- Abstract(参考訳): ウェアラブルセンサを用いた人間中心のポーズ推定(HPE)はVR/ARアプリケーションに不可欠である。
ほとんどの方法は、遠心画像またはスパース慣性測定ユニット(IMU)信号にのみ依存しており、画像の自己閉塞や慣性センサーのスパースネスとドリフトによる不正確な結果をもたらす。
最も重要なことは、両方のモダリティを含む実世界のデータセットが欠如していることが、この分野の進歩の大きな障害であることだ。
この障壁を克服するため、本研究では、実VR製品スイートで収集された全データを用いて、マルチモーダルな \textbf{E}gocentric human \textbf{M}otion data with \textbf{H}ead-Mounted Display (HMD) とボディーウーンの \textbf{I}MUs を提案する。
特にEMHIは、ヘッドセット上の下向きのカメラからのステレオ画像と、ボディウーンのセンサーからのIMUデータと、SMPL形式のポーズアノテーションを提供する。
このデータセットは、58人の被験者が39のアクションを実行し、計28.5時間の録音を行う885のシーケンスで構成されている。
アノテーションを光学マーカーを用いたSMPLフィッティング結果と比較することにより,アノテーションの評価を行った。
本稿では,マルチモーダル融合エンコーダ,時間的特徴エンコーダ,MLPに基づく回帰ヘッドを用いたマルチモーダル自己中心型HPEの新たなベースライン手法であるMEPoserを紹介する。
EMHI実験により、MEPoserは既存の単一モーダル手法よりも優れており、エゴセントリックHPEの問題を解決する際のデータセットの価値を示している。
EMHIのリリースとその手法は,エゴセントリックなHPEの研究を推進し,VR/AR製品におけるこの技術の実践的実装を迅速化できると考えている。
関連論文リスト
- ES-PTAM: Event-based Stereo Parallel Tracking and Mapping [11.801511288805225]
イベントカメラは、標準的なカメラの限界を克服する利点を提供する。
2つのアイデアを組み合わせたイベントベースステレオVOシステムを提案する。
実世界の5つのデータセットからシステムを評価する。
論文 参考訳(メタデータ) (2024-08-28T07:56:28Z) - Masked Video and Body-worn IMU Autoencoder for Egocentric Action Recognition [24.217068565936117]
本稿では,身近なIMUの動作データをエゴセントリックなビデオと統合する行動認識手法を提案する。
体全体に配置された複数のIMUデバイスの複雑な関係をモデル化するために、複数のIMUデバイスにおける協調力学を利用する。
実験により,提案手法は複数の公開データセット上で最先端の性能を実現することができることが示された。
論文 参考訳(メタデータ) (2024-07-09T07:53:16Z) - 3D Human Pose Perception from Egocentric Stereo Videos [67.9563319914377]
我々は,エゴセントリックな立体3次元ポーズ推定を改善するためのトランスフォーマーベースの新しいフレームワークを提案する。
本手法は, しゃがんだり座ったりといった困難なシナリオにおいても, 人間のポーズを正確に推定することができる。
私たちはUnrealEgo2、UnrealEgo-RW、およびトレーニングされたモデルをプロジェクトページでリリースします。
論文 参考訳(メタデータ) (2023-12-30T21:21:54Z) - Aria-NeRF: Multimodal Egocentric View Synthesis [17.0554791846124]
ニューラルラジアンス場(NeRFs)にインスパイアされた可変体積線トレーシングに基づく、エゴセントリックなデータから訓練されたリッチでマルチモーダルなシーンモデルの開発における研究の加速を目指す。
このデータセットは、RGB画像、アイトラッキングカメラの映像、マイクからの音声記録、気圧計による気圧測定、GPSによる位置座標、デュアル周波数IMUデータセット(1kHzと800Hz)の情報を含む、総合的なセンサデータの収集を提供する。
このデータセットで捉えた多様なデータモダリティと現実世界のコンテキストは、人間の行動に対する理解を深め、より没入的でインテリジェントな体験を可能にするための堅牢な基盤となる。
論文 参考訳(メタデータ) (2023-11-11T01:56:35Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - FusePose: IMU-Vision Sensor Fusion in Kinematic Space for Parametric
Human Pose Estimation [12.821740951249552]
パラメトリック・ヒューマン・キネマティック・モデルを用いてemphFusePoseというフレームワークを提案する。
IMUや視覚データの異なる情報を収集し、NaiveFuse、KineFuse、AdaDeepFuseの3つの特徴的なセンサー融合手法を導入する。
3次元人のポーズ推定の性能は、ベースライン結果よりも向上する。
論文 参考訳(メタデータ) (2022-08-25T09:35:27Z) - UnrealEgo: A New Dataset for Robust Egocentric 3D Human Motion Capture [70.59984501516084]
UnrealEgoは、エゴセントリックな3Dポーズ推定のための、新しい大規模博物学データセットである。
これは、2台の魚眼カメラを備えた高度な眼鏡のコンセプトに基づいており、制約のない環境で使用することができる。
本稿では,ステレオ入力のための2次元キーポイント推定モジュールを考案し,人間のポーズ推定を改善するための簡易かつ効果的なベンチマーク手法を提案する。
論文 参考訳(メタデータ) (2022-08-02T17:59:54Z) - Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular
Depth Estimation by Integrating IMU Motion Dynamics [74.1720528573331]
教師なし単眼深度と自我運動推定は近年広く研究されている。
我々は、視覚情報とIMUモーションダイナミクスを統合した新しいスケールアウェアフレームワークDynaDepthを提案する。
我々は、KITTIおよびMake3Dデータセット上で広範囲な実験とシミュレーションを行うことにより、DynaDepthの有効性を検証する。
論文 参考訳(メタデータ) (2022-07-11T07:50:22Z) - Transformer Inertial Poser: Attention-based Real-time Human Motion
Reconstruction from Sparse IMUs [79.72586714047199]
本研究では,6つのIMUセンサからリアルタイムに全体動作を再構築する,注意に基づく深層学習手法を提案する。
提案手法は, 実装が簡単で, 小型でありながら, 定量的かつ質的に新しい結果が得られる。
論文 参考訳(メタデータ) (2022-03-29T16:24:52Z) - SelfPose: 3D Egocentric Pose Estimation from a Headset Mounted Camera [97.0162841635425]
頭部装着型VR装置の縁に設置した下向きの魚眼カメラから撮影した単眼画像から,エゴセントリックな3Dボディポーズ推定法を提案する。
この特異な視点は、厳密な自己閉塞と視点歪みを伴う、独特の視覚的な外観のイメージに繋がる。
本稿では,2次元予測の不確実性を考慮した新しいマルチブランチデコーダを用いたエンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-02T16:18:06Z) - IMUTube: Automatic Extraction of Virtual on-body Accelerometry from
Video for Human Activity Recognition [12.91206329972949]
IMUTubeは、人間の活動の映像をIMUデータの仮想ストリームに変換する自動処理パイプラインである。
これらの仮想IMUストリームは、人体の様々な場所で加速度計を表現している。
本稿では,実際のIMUデータにより,既知のHARデータセット上での各種モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-29T21:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。