論文の概要: 4D Human Body Capture from Egocentric Video via 3D Scene Grounding
- arxiv url: http://arxiv.org/abs/2011.13341v2
- Date: Fri, 15 Oct 2021 23:03:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 09:03:51.606413
- Title: 4D Human Body Capture from Egocentric Video via 3D Scene Grounding
- Title(参考訳): エゴセントリックビデオからの3Dシーン撮影による4D人体撮影
- Authors: Miao Liu, Dexin Yang, Yan Zhang, Zhaopeng Cui, James M. Rehg, Siyu
Tang
- Abstract要約: 本稿では,モノクラーエゴセントリックビデオから2人称3D人体メッシュの時系列を再構築する新しい課題を紹介する。
エゴセントリックなビデオのユニークな視点と迅速なカメラの動きは、人間の身体を捉えるための技術的な障壁を増す。
- 参考スコア(独自算出の注目度): 38.3169520384642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel task of reconstructing a time series of second-person 3D
human body meshes from monocular egocentric videos. The unique viewpoint and
rapid embodied camera motion of egocentric videos raise additional technical
barriers for human body capture. To address those challenges, we propose a
simple yet effective optimization-based approach that leverages 2D observations
of the entire video sequence and human-scene interaction constraint to estimate
second-person human poses, shapes, and global motion that are grounded on the
3D environment captured from the egocentric view. We conduct detailed ablation
studies to validate our design choice. Moreover, we compare our method with the
previous state-of-the-art method on human motion capture from monocular video,
and show that our method estimates more accurate human-body poses and shapes
under the challenging egocentric setting. In addition, we demonstrate that our
approach produces more realistic human-scene interaction.
- Abstract(参考訳): 本稿では,モノクラーエゴセントリックビデオから2人称3D人体メッシュの時系列を再構築する新しい課題を紹介する。
エゴセントリックなビデオのユニークな視点と迅速なエンボディカメラの動きは、人体を捉えるための新たな技術的障壁をもたらす。
これらの課題に対処するために,映像列全体の2次元観察と人間とシーンの相互作用制約を利用して,エゴセントリックな視点から捉えた3次元環境を基盤とした2人目のポーズ,形状,大域的な動きを推定する,単純かつ効果的な最適化手法を提案する。
我々は設計選択を検証するために詳細なアブレーション研究を行う。
さらに,本手法をモノクロ映像から人間の動きを捉える手法と比較し,より正確な人体ポーズや形状を,難易度の高いエゴセントリックな環境下で推定することを示した。
さらに,本手法がより現実的な人間とシーンの相互作用を生み出すことを示す。
関連論文リスト
- AMG: Avatar Motion Guided Video Generation [5.82136706118236]
本稿では,3次元アバターの制御レンダリングにビデオ拡散モデルを適用し,2次元フォトリアリズムと3次元制御性を組み合わせたAMGを提案する。
AMGは、カメラの位置、人間の動き、背景スタイルを正確に制御し、多人数拡散ビデオ生成を可能にする最初の方法である。
論文 参考訳(メタデータ) (2024-09-02T23:59:01Z) - MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild [32.6521941706907]
モノクラーインザワイルドビデオから3Dで複数の人物を再構成する新しいフレームワークであるMultiPlyを提案する。
まず、シーン全体の階層化されたニューラル表現を定義し、個々の人間と背景モデルで合成する。
階層化可能なボリュームレンダリングを通じて,ビデオから階層化ニューラル表現を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:59:57Z) - 3D Human Pose Perception from Egocentric Stereo Videos [67.9563319914377]
我々は,エゴセントリックな立体3次元ポーズ推定を改善するためのトランスフォーマーベースの新しいフレームワークを提案する。
本手法は, しゃがんだり座ったりといった困難なシナリオにおいても, 人間のポーズを正確に推定することができる。
私たちはUnrealEgo2、UnrealEgo-RW、およびトレーニングされたモデルをプロジェクトページでリリースします。
論文 参考訳(メタデータ) (2023-12-30T21:21:54Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - Ego-Body Pose Estimation via Ego-Head Pose Estimation [22.08240141115053]
エゴセントリックなビデオシーケンスから3次元の人間の動きを推定することは、人間の行動理解において重要な役割を担い、VR/ARに様々な応用がある。
Ego-Head Pose Estimation (EgoEgo) と呼ばれる新しい手法を提案する。
この頭と体のポーズのゆがみは、ペア化されたエゴセントリックなビデオと3D人間の動きでデータセットをトレーニングする必要をなくす。
論文 参考訳(メタデータ) (2022-12-09T02:25:20Z) - Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。
本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-11-29T16:32:41Z) - Action2video: Generating Videos of Human 3D Actions [31.665831044217363]
我々は、所定のアクションカテゴリから多様で自然な人間の動きのビデオを生成するという、興味深いが挑戦的な課題に取り組むことを目的としている。
重要な問題は、視覚的な外観で現実的な複数の異なる動き列を合成する能力にある。
Action2motionallyは、所定のアクションカテゴリのもっともらしい3Dポーズシーケンスを生成し、モーション2ビデオによって処理され、レンダリングされ、2Dビデオを形成する。
論文 参考訳(メタデータ) (2021-11-12T20:20:37Z) - Estimating 3D Motion and Forces of Human-Object Interactions from
Internet Videos [49.52070710518688]
一つのRGBビデオからオブジェクトと対話する人の3D動作を再構築する手法を提案する。
本手法では,被験者の3次元ポーズを物体のポーズ,接触位置,人体の接触力とともに推定する。
論文 参考訳(メタデータ) (2021-11-02T13:40:18Z) - Contact and Human Dynamics from Monocular Video [73.47466545178396]
既存のディープモデルは、ほぼ正確に見えるエラーを含むビデオから2Dと3Dキネマティックのポーズを予測する。
本稿では,最初の2次元と3次元のポーズ推定を入力として,映像系列から3次元の人間の動きを推定する物理に基づく手法を提案する。
論文 参考訳(メタデータ) (2020-07-22T21:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。