論文の概要: Joint Optimization for 4D Human-Scene Reconstruction in the Wild
- arxiv url: http://arxiv.org/abs/2501.02158v1
- Date: Sat, 04 Jan 2025 01:53:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:07:29.622311
- Title: Joint Optimization for 4D Human-Scene Reconstruction in the Wild
- Title(参考訳): 野生の4次元人間シーン再構築のための共同最適化
- Authors: Zhizheng Liu, Joe Lin, Wayne Wu, Bolei Zhou,
- Abstract要約: モノクロビデオから野生の4次元人間シーンを再現する新しい最適化手法JOSHを提案する。
実験の結果,JOSHはグローバルな人間の動き推定と密集したシーン再構築において,より良い結果が得られることが示された。
さらに、より効率的なモデルJOSH3Rを設計し、Webビデオから直接擬似ラベルでトレーニングします。
- 参考スコア(独自算出の注目度): 59.322951972876716
- License:
- Abstract: Reconstructing human motion and its surrounding environment is crucial for understanding human-scene interaction and predicting human movements in the scene. While much progress has been made in capturing human-scene interaction in constrained environments, those prior methods can hardly reconstruct the natural and diverse human motion and scene context from web videos. In this work, we propose JOSH, a novel optimization-based method for 4D human-scene reconstruction in the wild from monocular videos. JOSH uses techniques in both dense scene reconstruction and human mesh recovery as initialization, and then it leverages the human-scene contact constraints to jointly optimize the scene, the camera poses, and the human motion. Experiment results show JOSH achieves better results on both global human motion estimation and dense scene reconstruction by joint optimization of scene geometry and human motion. We further design a more efficient model, JOSH3R, and directly train it with pseudo-labels from web videos. JOSH3R outperforms other optimization-free methods by only training with labels predicted from JOSH, further demonstrating its accuracy and generalization ability.
- Abstract(参考訳): 人間の動きと周囲の環境の再構築は、人間の情景的相互作用を理解し、シーン内の人間の動きを予測するために重要である。
制約された環境下での人間とシーンのインタラクションを捉えるために多くの進歩があったが、従来の手法では、Webビデオから自然で多様な人間の動きやシーンコンテキストを再構築することはほとんどできない。
本研究では,モノクロビデオから野生の4次元人間シーンを再現する新しい最適化手法JOSHを提案する。
JOSHは、密集したシーン再構築と人間のメッシュ回復を初期化するために技術を使用し、人間のシーンとの接触制約を利用して、シーン、カメラのポーズ、人間の動きを共同で最適化する。
実験の結果,JOSHはシーン形状と人間の動きの同時最適化により,グローバルな人間の動き推定と密集したシーン再構築の両方において,より良い結果が得られることが示された。
さらに、より効率的なモデルJOSH3Rを設計し、Webビデオから直接擬似ラベルでトレーニングします。
JOSH3Rは、JOSHから予測されるラベルでのみトレーニングすることで、他の最適化のない手法よりも優れており、その精度と一般化能力を示している。
関連論文リスト
- ZeroHSI: Zero-Shot 4D Human-Scene Interaction by Video Generation [17.438484695828276]
我々は,映像生成とニューラルヒューマンレンダリングを統合することで,ゼロショット4次元人間とシーンのインタラクション合成を可能にする新しいアプローチであるZeroHSIを提案する。
我々の重要な洞察は、最先端のビデオ生成モデルで学んだリッチな動きの先行きを利用して、膨大な量の人間の動きと相互作用を訓練し、異なるレンダリングを使って人間とシーンのインタラクションを再構築することである。
室内および屋外の様々な場面の様々な種類の編集されたデータセットに対して,ZeroHSIの評価を行い,多種多様かつ文脈的に適切なヒューマン・シーンのインタラクションを生成できることを実証した。
論文 参考訳(メタデータ) (2024-12-24T18:55:38Z) - PACE: Human and Camera Motion Estimation from in-the-wild Videos [113.76041632912577]
本研究では,移動カメラのグローバルシーンにおける人間の動きを推定する手法を提案する。
これは、ビデオ中の人間とカメラの動きが混ざり合っているため、非常に難しい作業である。
本研究では,人体とカメラの動作を前景の人体と背景の両方の特徴を用いてアンハングリングする共同最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T19:04:14Z) - Decoupling Human and Camera Motion from Videos in the Wild [67.39432972193929]
本研究では,野生の映像から地球規模の人間の軌道を再構築する手法を提案する。
カメラと人間の動きを分離することで、人間を同じ世界座標系に配置することができる。
論文 参考訳(メタデータ) (2023-02-24T18:59:15Z) - Human-Aware Object Placement for Visual Environment Reconstruction [63.14733166375534]
我々は,モノクラーRGBビデオからシーンの3次元再構成を改善するために,人間とシーンのインタラクションを活用することができることを示す。
私たちのキーとなるアイデアは、人がシーンを移動してそれと対話するにつれて、複数の入力イメージにまたがってHSIを蓄積する、ということです。
シーン再構成は,初期3次元の人物のポーズと形状推定の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-07T18:59:02Z) - Learning Motion Priors for 4D Human Body Capture in 3D Scenes [81.54377747405812]
LEMO: LEMO: LEARING Human Motion priors for 4D human body capture。
提案手法では, 連続して復元されたポーズによって現れるジッタを減少させる新規な動きを事前に導入する。
また, 接触摩擦項と, 物体ごとの自己監督訓練により得られる接触認識運動充填剤を設計した。
パイプラインでは、高品質な4D人体撮影、スムーズな動きの再構築、身体とシーンの相互作用を実演しています。
論文 参考訳(メタデータ) (2021-08-23T20:47:09Z) - Synthesizing Long-Term 3D Human Motion and Interaction in 3D Scenes [27.443701512923177]
人間のモーション合成とシーンアレイアンス推論を橋渡しすることを提案する。
本研究では,3次元シーン構造上での長期人間の動作条件を合成する階層的生成フレームワークを提案する。
実験では,自然および物理的に再現可能な人間の動きをシーン内で生成する従来の手法よりも大幅に改善した。
論文 参考訳(メタデータ) (2020-12-10T09:09:38Z) - Long-term Human Motion Prediction with Scene Context [60.096118270451974]
人間の動きを予測するための新しい3段階フレームワークを提案する。
提案手法はまず,まず複数の人間の動作目標を抽出し,各目標に向けて3次元人間の動作経路を計画し,最後に各経路に続く3次元人間のポーズシーケンスを予測する。
論文 参考訳(メタデータ) (2020-07-07T17:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。