論文の概要: Ego4o: Egocentric Human Motion Capture and Understanding from Multi-Modal Input
- arxiv url: http://arxiv.org/abs/2504.08449v1
- Date: Fri, 11 Apr 2025 11:18:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:18:47.042991
- Title: Ego4o: Egocentric Human Motion Capture and Understanding from Multi-Modal Input
- Title(参考訳): Ego4o:Egocentric Human Motion Captureとマルチモーダル入力からの理解
- Authors: Jian Wang, Rishabh Dabral, Diogo Luvizon, Zhe Cao, Lingjie Liu, Thabo Beeler, Christian Theobalt,
- Abstract要約: この研究は、VR/ARヘッドセット、スマートグラス、携帯電話、スマートウォッチなどの消費者向けウェアラブルデバイスを使用して、人間の動きを追跡し、理解することに焦点を当てている。
Ego4o(o for omni)は,マルチモーダルなエゴセントリックインプットから人間の動きを同時に捉え,理解するための新しいフレームワークである。
- 参考スコア(独自算出の注目度): 62.51283548975632
- License:
- Abstract: This work focuses on tracking and understanding human motion using consumer wearable devices, such as VR/AR headsets, smart glasses, cellphones, and smartwatches. These devices provide diverse, multi-modal sensor inputs, including egocentric images, and 1-3 sparse IMU sensors in varied combinations. Motion descriptions can also accompany these signals. The diverse input modalities and their intermittent availability pose challenges for consistent motion capture and understanding. In this work, we present Ego4o (o for omni), a new framework for simultaneous human motion capture and understanding from multi-modal egocentric inputs. This method maintains performance with partial inputs while achieving better results when multiple modalities are combined. First, the IMU sensor inputs, the optional egocentric image, and text description of human motion are encoded into the latent space of a motion VQ-VAE. Next, the latent vectors are sent to the VQ-VAE decoder and optimized to track human motion. When motion descriptions are unavailable, the latent vectors can be input into a multi-modal LLM to generate human motion descriptions, which can further enhance motion capture accuracy. Quantitative and qualitative evaluations demonstrate the effectiveness of our method in predicting accurate human motion and high-quality motion descriptions.
- Abstract(参考訳): この研究は、VR/ARヘッドセット、スマートグラス、携帯電話、スマートウォッチなどの消費者向けウェアラブルデバイスを使用して、人間の動きを追跡し、理解することに焦点を当てている。
これらのデバイスは、エゴセントリックなイメージを含む多様なマルチモーダルセンサー入力と、様々な組み合わせで1-3スパースIMUセンサーを提供する。
動作記述もこれらの信号に付随する。
多様な入力モダリティとその間欠的な可用性は、一貫したモーションキャプチャーと理解のための課題を提起する。
本研究では,マルチモーダルなエゴセントリック入力から人間の動きを同時に捉え,理解するための新しい枠組みであるEgo4o(o for omni)を提案する。
複数のモダリティが組み合わされた場合、より優れた結果が得られながら、部分的な入力で性能を維持できる。
まず、IMUセンサ入力、オプションのエゴセントリック画像、人間の動きのテキスト記述を、動作VQ−VAEの潜伏空間に符号化する。
次に、潜伏ベクトルはVQ-VAEデコーダに送られ、人間の動きを追跡するように最適化される。
動作記述が利用できない場合には、潜在ベクトルを多モードLCMに入力して人間の動作記述を生成することで、モーションキャプチャの精度をさらに高めることができる。
定量的および定性的な評価は,高精度な人の動きと高品質な動作記述を予測する上で,本手法の有効性を示すものである。
関連論文リスト
- Generating Physically Realistic and Directable Human Motions from Multi-Modal Inputs [16.41735119504929]
この研究は、望まれる動きを部分的にしか特定できないマルチモーダル入力から現実的で物理的に人間の行動を生成することに焦点を当てている。
入力は、腕の動きと身体の速度、部分的なキーポイントアニメーション、ビデオに適用されたコンピュータビジョン、さらにはより高いレベルの運動目標を提供するVRコントローラから得られる。
Masked Humanoid Controller (MHC) は,多目的模倣学習を多目的マスク型動作実証に適用する新しい手法である。
論文 参考訳(メタデータ) (2025-02-08T17:02:11Z) - Human Motion Instruction Tuning [37.3026760535819]
本稿では,人間の動作指導のためのフレームワークであるLLaMoについて述べる。
LLaMoは、命令チューニングのためのネイティブフォームで動作を保持します。
ビデオデータとモーションデータをテキスト入力と共に処理することで、LLaMoは柔軟な人間中心の分析を可能にする。
論文 参考訳(メタデータ) (2024-11-25T14:38:43Z) - Motion Capture from Inertial and Vision Sensors [60.5190090684795]
MINIONSは、INertialとvisION Sensorsから収集された大規模なモーションキャプチャーデータセットである。
単眼カメラと極めて少ないIMUを用いたマルチモーダルモーションキャプチャの実験を行った。
論文 参考訳(メタデータ) (2024-07-23T09:41:10Z) - MotionLLM: Understanding Human Behaviors from Human Motions and Videos [40.132643319573205]
この研究は、人間の行動理解の多様性(ビデオと運動のモダリティ)の領域を掘り下げる。
我々は、人間の動作理解、キャプション、推論のためのフレームワークであるMotionLLMを紹介する。
論文 参考訳(メタデータ) (2024-05-30T17:59:50Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Human MotionFormer: Transferring Human Motions with Vision Transformers [73.48118882676276]
人間の動き伝達は、運動合成のためにターゲットの動的人物からソースの静的人物に動きを伝達することを目的としている。
本稿では,世界的および地域的認識を活用して,大規模かつ微妙な動きマッチングを捉える階層型ViTフレームワークであるHuman MotionFormerを提案する。
我々のHuman MotionFormerは、定性的かつ定量的に新しい最先端のパフォーマンスをセットしている。
論文 参考訳(メタデータ) (2023-02-22T11:42:44Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z) - QuestSim: Human Motion Tracking from Sparse Sensors with Simulated
Avatars [80.05743236282564]
人間の身体の動きのリアルタイム追跡は、AR/VRにおける没入感のある体験に不可欠である。
本稿では,HMDと2つのコントローラから疎信号を取り出す強化学習フレームワークを提案する。
一つのポリシーは、多様な移動スタイル、異なる体の大きさ、新しい環境に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。