論文の概要: HMD$^2$: Environment-aware Motion Generation from Single Egocentric Head-Mounted Device
- arxiv url: http://arxiv.org/abs/2409.13426v1
- Date: Fri, 20 Sep 2024 11:46:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 07:17:49.031743
- Title: HMD$^2$: Environment-aware Motion Generation from Single Egocentric Head-Mounted Device
- Title(参考訳): HMD$^2$:単一エゴセントリックヘッドマウントデバイスによる環境認識運動生成
- Authors: Vladimir Guzov, Yifeng Jiang, Fangzhou Hong, Gerard Pons-Moll, Richard Newcombe, C. Karen Liu, Yuting Ye, Lingni Ma,
- Abstract要約: 本稿では,外向きカラーカメラを用いた頭部装着装置を用いて,現実的な人体動作のオンライン生成について検討する。
動作再構成と生成のバランスをとるために,新しいシステム HMD$2$ を導入する。
- 参考スコア(独自算出の注目度): 41.563572075062574
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper investigates the online generation of realistic full-body human motion using a single head-mounted device with an outward-facing color camera and the ability to perform visual SLAM. Given the inherent ambiguity of this setup, we introduce a novel system, HMD$^2$, designed to balance between motion reconstruction and generation. From a reconstruction standpoint, our system aims to maximally utilize the camera streams to produce both analytical and learned features, including head motion, SLAM point cloud, and image embeddings. On the generative front, HMD$^2$ employs a multi-modal conditional motion Diffusion model, incorporating a time-series backbone to maintain temporal coherence in generated motions, and utilizes autoregressive in-painting to facilitate online motion inference with minimal latency (0.17 seconds). Collectively, we demonstrate that our system offers a highly effective and robust solution capable of scaling to an extensive dataset of over 200 hours collected in a wide range of complex indoor and outdoor environments using publicly available smart glasses.
- Abstract(参考訳): 本稿では,外向きカラーカメラと視覚SLAM機能を備えた頭部装着装置を用いて,リアルな全身動作のオンライン生成について検討する。
本稿では, 運動再構成と生成のバランスをとるための新しいシステム HMD$^2$ を導入する。
再建の観点から,本システムは,頭部運動,SLAM点雲,画像埋め込みなどの解析的特徴と学習的特徴の両方を最大限に活用することを目的としている。
生成面では、HMD$^2$はマルチモーダルな条件付き運動拡散モデルを採用し、生成した動きの時間的コヒーレンスを維持するために時系列バックボーンを組み込んでおり、自動回帰インペイントを用いて、最小レイテンシ(0.17秒)でオンライン動作推論を容易にする。
集合的に、我々のシステムは、公開可能なスマートグラスを用いて、広範囲の屋内および屋外環境において収集された200時間を超える広範囲なデータセットにスケール可能な、非常に効果的で堅牢なソリューションを提供していることを実証した。
関連論文リスト
- ELMO: Enhanced Real-time LiDAR Motion Capture through Upsampling [12.832526520548855]
本稿では,単一LiDARセンサ用に設計されたリアルタイムアップサンプリングモーションキャプチャフレームワークELMOを紹介する。
ELMOは、条件付き自己回帰変換器ベースのアップサンプリングモーションジェネレータとしてモデル化され、20fpsのLiDARポイントクラウドシーケンスから60fpsのモーションキャプチャを実現する。
論文 参考訳(メタデータ) (2024-10-09T15:02:08Z) - Robust Dual Gaussian Splatting for Immersive Human-centric Volumetric Videos [44.50599475213118]
我々は、複雑な人間のパフォーマンスをリアルタイムかつ高忠実に再生するための、textitDualGSと呼ばれる新しいアプローチを提案する。
提案手法は最大120倍の圧縮比を実現し,フレームあたり約350KBのストレージを必要とする。
我々は、VRヘッドセット上で写真リアルで自由視点体験を通して、表現の有効性を実証する。
論文 参考訳(メタデータ) (2024-09-12T18:33:13Z) - Motion Capture from Inertial and Vision Sensors [60.5190090684795]
MINIONSは、INertialとvisION Sensorsから収集された大規模なモーションキャプチャーデータセットである。
単眼カメラと極めて少ないIMUを用いたマルチモーダルモーションキャプチャの実験を行った。
論文 参考訳(メタデータ) (2024-07-23T09:41:10Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - LiveHPS: LiDAR-based Scene-level Human Pose and Shape Estimation in Free
Environment [59.320414108383055]
シーンレベルの人間のポーズと形状推定のための単一LiDARに基づく新しいアプローチであるLiveHPSを提案する。
多様な人間のポーズを伴う様々なシナリオで収集される巨大な人間の動きデータセットFreeMotionを提案する。
論文 参考訳(メタデータ) (2024-02-27T03:08:44Z) - Mocap Everyone Everywhere: Lightweight Motion Capture With Smartwatches and a Head-Mounted Camera [10.055317239956423]
本稿では2つのスマートウォッチとヘッドマウントカメラを用いた軽量で安価なモーションキャプチャー手法を提案する。
われわれの方法は、あらゆる場所でウェアラブルのモーションキャプチャーを利用できるようにし、多様な環境で3Dのフルボディモーションキャプチャーを可能にする。
論文 参考訳(メタデータ) (2024-01-01T18:56:54Z) - VR-NeRF: High-Fidelity Virtualized Walkable Spaces [55.51127858816994]
本稿では,高忠実度キャプチャ,モデル再構成,リアルタイムレンダリングのためのエンドツーエンドシステムを提案する。
論文 参考訳(メタデータ) (2023-11-05T02:03:14Z) - Avatars Grow Legs: Generating Smooth Human Motion from Sparse Tracking
Inputs with Diffusion Model [18.139630622759636]
本稿では,低速な上体追跡信号のフルボディ追跡に特化して設計された新しい条件拡散モデル AGRoL を提案する。
我々のモデルは、シンプルな多層パーセプトロン(MLP)アーキテクチャと、モーションデータのための新しい条件付け方式に基づいている。
一般的な拡散アーキテクチャとは異なり、私たちのコンパクトアーキテクチャはリアルタイムで動作し、オンラインのボディトラッキングアプリケーションに適している。
論文 参考訳(メタデータ) (2023-04-17T19:35:13Z) - Instant-NVR: Instant Neural Volumetric Rendering for Human-object
Interactions from Monocular RGBD Stream [14.844982083586306]
Instant-NVRは,1台のRGBDカメラを用いて,物体追跡とレンダリングを瞬時に行うニューラルネットワークである。
トラッキングフロントエンドでは、十分な動作先を提供するために、頑健な人間オブジェクトキャプチャー方式を採用する。
また,移動優先探索による動的・静電放射場をオンザフライで再構築する手法も提案する。
論文 参考訳(メタデータ) (2023-04-06T16:09:51Z) - Augment Yourself: Mixed Reality Self-Augmentation Using Optical
See-through Head-mounted Displays and Physical Mirrors [49.49841698372575]
光シークレットヘッドマウントディスプレイ(OST HMD)は、仮想オブジェクトと物理シーンを融合して、没入型複合現実(MR)環境をユーザに提供するための重要な技術のひとつです。
我々は,OST HMDと物理ミラーを組み合わせて自己拡張を実現し,ユーザを中心とした没入型MR環境を提供する,新しいコンセプトとプロトタイプシステムを提案する。
我々のシステムでは、まず第一に、HMDに取り付けられたRGBDカメラを用いて鏡によって生成された仮想画像中のユーザのポーズを推定し、仮想オブジェクトを反射に固定する。
論文 参考訳(メタデータ) (2020-07-06T16:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。