論文の概要: EgoPoseVR: Spatiotemporal Multi-Modal Reasoning for Egocentric Full-Body Pose in Virtual Reality
- arxiv url: http://arxiv.org/abs/2602.05590v1
- Date: Thu, 05 Feb 2026 12:17:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.919564
- Title: EgoPoseVR: Spatiotemporal Multi-Modal Reasoning for Egocentric Full-Body Pose in Virtual Reality
- Title(参考訳): EgoPoseVR:バーチャルリアリティにおけるEgocentric Full-Body Poseのための時空間多モード推論
- Authors: Haojie Cheng, Shaun Jing Heng Ong, Shaoyu Cai, Aiden Tat Yang Koh, Fuxi Ouyang, Eng Tat Khoo,
- Abstract要約: EgoPoseVRは、バーチャルリアリティー(VR)における正確なエゴセントリックフルボディポーズ推定のためのエンドツーエンドフレームワーク
ヘッドセットのモーションキューとエゴセントリックなRGB-D観測を、デュアルモードの融合パイプラインを通じて統合する。
EgoPoseVRは、現実世界のシーンで、精度、安定性、体格、将来の使用に対する意図において、かなり高い主観評価を達成している。
- 参考スコア(独自算出の注目度): 1.749869555855672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Immersive virtual reality (VR) applications demand accurate, temporally coherent full-body pose tracking. Recent head-mounted camera-based approaches show promise in egocentric pose estimation, but encounter challenges when applied to VR head-mounted displays (HMDs), including temporal instability, inaccurate lower-body estimation, and the lack of real-time performance. To address these limitations, we present EgoPoseVR, an end-to-end framework for accurate egocentric full-body pose estimation in VR that integrates headset motion cues with egocentric RGB-D observations through a dual-modality fusion pipeline. A spatiotemporal encoder extracts frame- and joint-level representations, which are fused via cross-attention to fully exploit complementary motion cues across modalities. A kinematic optimization module then imposes constraints from HMD signals, enhancing the accuracy and stability of pose estimation. To facilitate training and evaluation, we introduce a large-scale synthetic dataset of over 1.8 million temporally aligned HMD and RGB-D frames across diverse VR scenarios. Experimental results show that EgoPoseVR outperforms state-of-the-art egocentric pose estimation models. A user study in real-world scenes further shows that EgoPoseVR achieved significantly higher subjective ratings in accuracy, stability, embodiment, and intention for future use compared to baseline methods. These results show that EgoPoseVR enables robust full-body pose tracking, offering a practical solution for accurate VR embodiment without requiring additional body-worn sensors or room-scale tracking systems.
- Abstract(参考訳): 没入型バーチャルリアリティ(VR)アプリケーションは、正確な時間的コヒーレントなフルボディポーズトラッキングを要求する。
最近のヘッドマウントカメラベースのアプローチは、エゴセントリックなポーズ推定において有望であるが、時間的不安定性、不正確な下半身推定、リアルタイムパフォーマンスの欠如など、VRヘッドマウントディスプレイ(HMD)に適用した場合の課題に直面する。
これらの制限に対処するために、EgoPoseVRは、ヘッドセットモーションキューとエゴセントリックなRGB-D観測をデュアルモード核融合パイプラインを通して統合したVRで、正確なエゴセントリックなフルボディポーズ推定のためのエンドツーエンドフレームワークである。
時空間エンコーダはフレームレベルとジョイントレベルの表現を抽出し、その表現はクロスアテンションを介して融合され、モーダル間の相補的な動きキューを完全に活用する。
キネマティック最適化モジュールは、HMD信号から制約を課し、ポーズ推定の精度と安定性を高める。
トレーニングと評価を容易にするため,多種多様なVRシナリオにまたがって,HMDとRGB-Dのフレームを時間的に整列させた大規模な合成データセットを導入する。
実験の結果,EgoPoseVRは最先端の自己中心型ポーズ推定モデルよりも優れていた。
EgoPoseVRは、ベースライン法と比較して、精度、安定性、実施性、将来の使用に対する意図において、かなり高い主観評価を達成している。
これらの結果は、EgoPoseVRが堅牢なフルボディポーズトラッキングを可能にし、ボディウーンセンサーやルームスケールトラッキングシステムを必要とすることなく、正確なVRエボデーメントのための実用的なソリューションを提供することを示している。
関連論文リスト
- GazeProphet: Software-Only Gaze Prediction for VR Foveated Rendering [0.0]
ファブリケートレンダリングは、バーチャルリアリティーアプリケーションにおける計算要求を大幅に減少させる。
現在のアプローチは高価なハードウェアベースのアイトラッキングシステムを必要とする。
本稿では,VR環境における視線位置を予測するためのソフトウェアのみのアプローチであるGazeProphetを提案する。
論文 参考訳(メタデータ) (2025-08-19T06:09:23Z) - SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training [82.68200031146299]
実データに対する対角的VRトレーニングを行うセドVR2と呼ばれる一段階拡散型VRモデルを提案する。
単一ステップで高精細度VRを扱うために、モデルアーキテクチャとトレーニング手順の両方にいくつかの拡張を導入する。
論文 参考訳(メタデータ) (2025-06-05T17:51:05Z) - FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video [52.33896173943054]
ヘッドマウントのボディフェイスステレオカメラを備えたエゴセントリックなモーションキャプチャーは、VRやARアプリケーションには不可欠だ。
既存の方法は、合成事前学習と、現実の環境で滑らかで正確な予測を生成するのに苦労している。
本稿では、デバイスポーズとカメラフィードを組み合わせて、最先端のボディポーズ予測を行う、シンプルで効果的なアーキテクチャFRAMEを提案する。
論文 参考訳(メタデータ) (2025-03-29T14:26:06Z) - Bring Your Rear Cameras for Egocentric 3D Human Pose Estimation [69.68568832269285]
ヘッドマウントデバイス(HMD)の前に設置したカメラを用いて,エゴセントリックな3次元ポーズ推定を積極的に研究している。
自己閉塞性や視野範囲の制限により、フルボディトラッキングが同じであるかどうかは不明だ。
マルチビュー情報と熱マップの不確実性を用いて2次元関節熱マップ推定を改良するトランスフォーマーに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-14T17:59:54Z) - Estimating Body and Hand Motion in an Ego-sensed World [62.61989004520802]
頭部装着装置から人体の動きを推定するシステムであるEgoAlloについて述べる。
エゴセントリックなSLAMポーズとイメージのみを使用して、EgoAlloは条件付き拡散モデルからサンプリングを行い、3Dボディポーズ、高さ、手のパラメータを推定する。
論文 参考訳(メタデータ) (2024-10-04T17:59:57Z) - Self-Avatar Animation in Virtual Reality: Impact of Motion Signals Artifacts on the Full-Body Pose Reconstruction [13.422686350235615]
本研究の目的は,自己アバターのフルボディポーズの再現に対する影響を計測することである。
テキストYOLOv8のポーズ推定から推定した3次元動画像と3次元動画像座標を用いて動画像再構成誤差を解析する。
論文 参考訳(メタデータ) (2024-04-29T12:02:06Z) - EgoPoser: Robust Real-Time Egocentric Pose Estimation from Sparse and Intermittent Observations Everywhere [29.795731025552957]
EgoPoserは、ヘッドセットの視野内でのみ、間欠的な手の位置と方向追跡から体ポーズを頑健にモデル化する。
本研究では,グローバルな位置から独立して全身のポーズを予測する新しいグローバルな動き分解手法を提案する。
本研究では,本手法を実験的に評価し,定性的に,定量的に,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-12T07:46:50Z) - SelfPose: 3D Egocentric Pose Estimation from a Headset Mounted Camera [97.0162841635425]
頭部装着型VR装置の縁に設置した下向きの魚眼カメラから撮影した単眼画像から,エゴセントリックな3Dボディポーズ推定法を提案する。
この特異な視点は、厳密な自己閉塞と視点歪みを伴う、独特の視覚的な外観のイメージに繋がる。
本稿では,2次元予測の不確実性を考慮した新しいマルチブランチデコーダを用いたエンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-02T16:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。