論文の概要: WHAC: World-grounded Humans and Cameras
- arxiv url: http://arxiv.org/abs/2403.12959v1
- Date: Tue, 19 Mar 2024 17:58:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 13:04:26.675270
- Title: WHAC: World-grounded Humans and Cameras
- Title(参考訳): WHAC:世界各国の人間とカメラ
- Authors: Wanqi Yin, Zhongang Cai, Ruisi Wang, Fanzhou Wang, Chen Wei, Haiyi Mei, Weiye Xiao, Zhitao Yang, Qingping Sun, Atsushi Yamashita, Ziwei Liu, Lei Yang,
- Abstract要約: 我々は,表現的パラメトリック人間モデル(SMPL-X)と対応するカメラのポーズを共同で再現することを目指している。
WHACと呼ばれる新しいフレームワークを導入し、世界規模で表現された人間のポーズと形状の推定を容易にする。
我々は、正確に注釈付けされた人間とカメラを含む新しい合成データセットWHAC-A-Moleを提案する。
- 参考スコア(独自算出の注目度): 37.877565981937586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating human and camera trajectories with accurate scale in the world coordinate system from a monocular video is a highly desirable yet challenging and ill-posed problem. In this study, we aim to recover expressive parametric human models (i.e., SMPL-X) and corresponding camera poses jointly, by leveraging the synergy between three critical players: the world, the human, and the camera. Our approach is founded on two key observations. Firstly, camera-frame SMPL-X estimation methods readily recover absolute human depth. Secondly, human motions inherently provide absolute spatial cues. By integrating these insights, we introduce a novel framework, referred to as WHAC, to facilitate world-grounded expressive human pose and shape estimation (EHPS) alongside camera pose estimation, without relying on traditional optimization techniques. Additionally, we present a new synthetic dataset, WHAC-A-Mole, which includes accurately annotated humans and cameras, and features diverse interactive human motions as well as realistic camera trajectories. Extensive experiments on both standard and newly established benchmarks highlight the superiority and efficacy of our framework. We will make the code and dataset publicly available.
- Abstract(参考訳): 人間とカメラの軌跡をモノクロビデオから正確なスケールで推定することは、非常に望ましいが困難で不適切な問題である。
本研究では,世界,人間,カメラの3つの重要なプレイヤーの相乗効果を利用して,表現的パラメトリック人間モデル(SMPL-X)と対応するカメラのポーズを協調的に再現することを目的とする。
私たちのアプローチは2つの重要な観測に基づいています。
第一に、カメラフレームSMPL-X推定法は、人間の絶対深度を容易に回復する。
第二に、人間の動きは本質的に絶対的な空間的手がかりを与える。
これらの知見を統合することで、従来の最適化手法に頼らずに、カメラポーズ推定と並行して、世界規模の表現的人物ポーズと形状推定(EHPS)を容易にする、WHACと呼ばれる新しいフレームワークを導入する。
さらに,人間とカメラを正確にアノテートした新しい合成データセットWHAC-A-Moleを提案する。
標準および新しく確立されたベンチマークの広範な実験は、我々のフレームワークの優位性と有効性を強調している。
コードとデータセットを公開します。
関連論文リスト
- COIN: Control-Inpainting Diffusion Prior for Human and Camera Motion Estimation [98.05046790227561]
COINは、人間の動きとカメラの動きを細粒度に制御できる、コントロール・インパインティング・モーション拡散である。
COINは、グローバルな人間の動き推定とカメラの動き推定という観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-08-29T10:36:29Z) - I'M HOI: Inertia-aware Monocular Capture of 3D Human-Object Interactions [42.87514729260336]
イムホイ(I'm-HOI)は、人間と物体の両方の3Dの動きを、新しい環境で忠実に捉えようとするモノクラースキームである。
一般的な動き推論とカテゴリー認識の洗練を兼ね備えている。
私たちのデータセットとコードはコミュニティにリリースされます。
論文 参考訳(メタデータ) (2023-12-10T08:25:41Z) - PACE: Human and Camera Motion Estimation from in-the-wild Videos [113.76041632912577]
本研究では,移動カメラのグローバルシーンにおける人間の動きを推定する手法を提案する。
これは、ビデオ中の人間とカメラの動きが混ざり合っているため、非常に難しい作業である。
本研究では,人体とカメラの動作を前景の人体と背景の両方の特徴を用いてアンハングリングする共同最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T19:04:14Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - Embodied Scene-aware Human Pose Estimation [25.094152307452]
シーン認識型人間のポーズ推定手法を提案する。
本手法は, シミュレーション環境下でのグローバルな3次元人間のポーズを再現し, 因果関係の1段階である。
論文 参考訳(メタデータ) (2022-06-18T03:50:19Z) - GLAMR: Global Occlusion-Aware Human Mesh Recovery with Dynamic Cameras [99.07219478953982]
ダイナミックカメラで記録したモノクロビデオから3次元グローバルなヒューマンメッシュリカバリのためのアプローチを提案する。
われわれはまず,視覚的動作に基づいて隠蔽されたヒトの身体運動を自己回帰的に埋め込む,深部再生運動充填装置を提案する。
従来の研究とは対照的に,我々の手法はダイナミックカメラを用いても,一貫したグローバル座標で人間のメッシュを再構築する。
論文 参考訳(メタデータ) (2021-12-02T18:59:54Z) - Camera Motion Agnostic 3D Human Pose Estimation [8.090223360924004]
本稿では,世界座標系で定義された3次元人間のポーズとメッシュを予測するためのカメラモーション非依存アプローチを提案する。
本稿では,局所的なポーズ列から大域的な動き列を予測する双方向ゲート再帰単位(GRU)に基づくネットワークを提案する。
移動カメラ環境において構築された3DPWと合成データセットを用いて評価を行う。
論文 参考訳(メタデータ) (2021-12-01T08:22:50Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。