論文の概要: Ego-Body Pose Estimation via Ego-Head Pose Estimation
- arxiv url: http://arxiv.org/abs/2212.04636v3
- Date: Mon, 28 Aug 2023 02:51:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 01:02:41.544609
- Title: Ego-Body Pose Estimation via Ego-Head Pose Estimation
- Title(参考訳): Ego-Head Pose推定によるEgo-Body Pose推定
- Authors: Jiaman Li, C. Karen Liu, Jiajun Wu
- Abstract要約: エゴセントリックなビデオシーケンスから3次元の人間の動きを推定することは、人間の行動理解において重要な役割を担い、VR/ARに様々な応用がある。
Ego-Head Pose Estimation (EgoEgo) と呼ばれる新しい手法を提案する。
この頭と体のポーズのゆがみは、ペア化されたエゴセントリックなビデオと3D人間の動きでデータセットをトレーニングする必要をなくす。
- 参考スコア(独自算出の注目度): 22.08240141115053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating 3D human motion from an egocentric video sequence plays a critical
role in human behavior understanding and has various applications in VR/AR.
However, naively learning a mapping between egocentric videos and human motions
is challenging, because the user's body is often unobserved by the front-facing
camera placed on the head of the user. In addition, collecting large-scale,
high-quality datasets with paired egocentric videos and 3D human motions
requires accurate motion capture devices, which often limit the variety of
scenes in the videos to lab-like environments. To eliminate the need for paired
egocentric video and human motions, we propose a new method, Ego-Body Pose
Estimation via Ego-Head Pose Estimation (EgoEgo), which decomposes the problem
into two stages, connected by the head motion as an intermediate
representation. EgoEgo first integrates SLAM and a learning approach to
estimate accurate head motion. Subsequently, leveraging the estimated head pose
as input, EgoEgo utilizes conditional diffusion to generate multiple plausible
full-body motions. This disentanglement of head and body pose eliminates the
need for training datasets with paired egocentric videos and 3D human motion,
enabling us to leverage large-scale egocentric video datasets and motion
capture datasets separately. Moreover, for systematic benchmarking, we develop
a synthetic dataset, AMASS-Replica-Ego-Syn (ARES), with paired egocentric
videos and human motion. On both ARES and real data, our EgoEgo model performs
significantly better than the current state-of-the-art methods.
- Abstract(参考訳): エゴセントリックなビデオシーケンスから3次元の人間の動きを推定することは、人間の行動理解において重要な役割を果たす。
しかし,ユーザの頭部に設置した前面カメラでは身体を観察できないことが多いため,自発的映像と人間の動作のマッピングを生かして学ぶことは困難である。
さらに、大規模な高品質なデータセットをペア化されたエゴセントリックなビデオと3D人間のモーションで収集するには、正確なモーションキャプチャー装置が必要である。
そこで本研究では,エゴ・ヘッド・ポーズ・アセスメント(Ego-Head Pose Estimation, EgoEgo)を用いたエゴ・ボディ・ポーズ・アセスメント(Ego-Body Pose Estimation, Ego-Head Pose Estimation, EgoEgo)を提案する。
EgoEgoはまずSLAMと学習アプローチを統合して正確な頭部の動きを推定する。
その後、推定された頭部の姿勢を入力として、エゴエゴは条件拡散を利用して複数の可能な全身運動を生成する。
この頭と体のポーズの不連続は、ペアのエゴセントリックビデオと3dヒューマンモーションでデータセットをトレーニングする必要をなくし、大規模なエゴセントリックビデオデータセットとモーションキャプチャデータセットを別々に活用することを可能にします。
さらに,システマティック・ベンチマークのための合成データセットであるAMASS-Replica-Ego-Syn(ARES)を開発した。
ARESと実データの両方において、私たちのEgoEgoモデルは現在の最先端の手法よりも大幅にパフォーマンスが向上します。
関連論文リスト
- EgoGen: An Egocentric Synthetic Data Generator [55.62633157306507]
EgoGenは新しい合成データジェネレータで、エゴセントリックな知覚タスクのための正確でリッチな地上訓練データを生成することができる。
EgoGenの中心となるのは、仮想人間の自我中心の視覚入力を直接利用して3D環境を感知する、新しい人間のモーション合成モデルである。
我々は、ヘッドマウントカメラのマッピングとローカライゼーション、エゴセントリックカメラトラッキング、エゴセントリックビューからのヒューマンメッシュリカバリの3つのタスクで、EgoGenの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-16T18:55:22Z) - 3D Human Pose Perception from Egocentric Stereo Videos [74.23741075104166]
我々は,エゴセントリックな立体3次元ポーズ推定を改善するためのトランスフォーマーベースの新しいフレームワークを提案する。
本手法は, しゃがんだり座ったりといった困難なシナリオにおいても, 人間のポーズを正確に推定することができる。
私たちはUnrealEgo2、UnrealEgo-RW、およびトレーニングされたモデルをプロジェクトページでリリースします。
論文 参考訳(メタデータ) (2023-12-30T21:21:54Z) - EgoPoser: Robust Real-Time Ego-Body Pose Estimation in Large Scenes [32.54969563469422]
ヘッドポーズとハンドポーズだけでのフルボディのエゴ位置推定は、ヘッドセットベースのプラットフォーム上でのアバター表現を効果的に活用するための研究の活発な領域となっている。
本稿では,ヘッドセットを用いたエゴ位置推定のための入力表現を再考し,新しい動作分解法を導入することで,これらの制約を克服するEgoPoserを提案する。
実験の結果,EgoPoserは600fps以上の高速な推論速度を維持しながら,定性的かつ定量的に最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-12T07:46:50Z) - EgoHumans: An Egocentric 3D Multi-Human Benchmark [37.375846688453514]
EgoHumansは、エゴセントリックな人間の3Dポーズ推定と追跡の最先端化を図るために、新しいマルチビューマルチヒューマンビデオベンチマークである。
本研究では,エゴセントリックなマルチヒューマン・ベンチマークを構築するために,新しい3Dキャプチャ・セットアップを提案する。
コンシューマグレードのウェアラブルカメラ搭載メガネを、エゴセントリックな視点に活用することで、テニス、フェンシング、バレーボールなどのダイナミックな活動を捉えることができます。
論文 参考訳(メタデータ) (2023-05-25T21:37:36Z) - UnrealEgo: A New Dataset for Robust Egocentric 3D Human Motion Capture [70.59984501516084]
UnrealEgoは、エゴセントリックな3Dポーズ推定のための、新しい大規模博物学データセットである。
これは、2台の魚眼カメラを備えた高度な眼鏡のコンセプトに基づいており、制約のない環境で使用することができる。
本稿では,ステレオ入力のための2次元キーポイント推定モジュールを考案し,人間のポーズ推定を改善するための簡易かつ効果的なベンチマーク手法を提案する。
論文 参考訳(メタデータ) (2022-08-02T17:59:54Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z) - EgoBody: Human Body Shape, Motion and Social Interactions from
Head-Mounted Devices [76.50816193153098]
EgoBodyは複雑な3Dシーンにおけるソーシャルインタラクションのための新しい大規模データセットである。
私たちはMicrosoft HoloLens2ヘッドセットを使って、RGB、奥行き、視線、頭と手のトラッキングなど、リッチなエゴセントリックなデータストリームを記録しています。
正確な3Dグラウンドトルースを得るため、マルチKinectリグでヘッドセットを校正し、多視点RGB-Dフレームに表現力のあるSMPL-Xボディーメッシュを適合させる。
論文 参考訳(メタデータ) (2021-12-14T18:41:28Z) - Ego-Exo: Transferring Visual Representations from Third-person to
First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。
私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。
実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文 参考訳(メタデータ) (2021-04-16T06:10:10Z) - 4D Human Body Capture from Egocentric Video via 3D Scene Grounding [38.3169520384642]
本稿では,モノクラーエゴセントリックビデオから2人称3D人体メッシュの時系列を再構築する新しい課題を紹介する。
エゴセントリックなビデオのユニークな視点と迅速なカメラの動きは、人間の身体を捉えるための技術的な障壁を増す。
論文 参考訳(メタデータ) (2020-11-26T15:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。