論文の概要: Physics-based Human Pose Estimation from a Single Moving RGB Camera
- arxiv url: http://arxiv.org/abs/2507.17406v1
- Date: Wed, 23 Jul 2025 11:04:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.966397
- Title: Physics-based Human Pose Estimation from a Single Moving RGB Camera
- Title(参考訳): 単一移動RGBカメラによる物理情報に基づく人物位置推定
- Authors: Ayce Idil Aytekin, Chuqiao Li, Diogo Luvizon, Rishabh Dabral, Martin Oswald, Marc Habermann, Christian Theobalt,
- Abstract要約: MoviCamは、地上のトラジェクトリを含む最初の非合成データセットである。
PhysDynPoseは、シーン幾何学と物理的な制約を組み込んだ物理ベースの手法である。
我々の手法は世界座標における人間とカメラの両方のポーズを頑健に推定する。
- 参考スコア(独自算出の注目度): 47.50334809388003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most monocular and physics-based human pose tracking methods, while achieving state-of-the-art results, suffer from artifacts when the scene does not have a strictly flat ground plane or when the camera is moving. Moreover, these methods are often evaluated on in-the-wild real world videos without ground-truth data or on synthetic datasets, which fail to model the real world light transport, camera motion, and pose-induced appearance and geometry changes. To tackle these two problems, we introduce MoviCam, the first non-synthetic dataset containing ground-truth camera trajectories of a dynamically moving monocular RGB camera, scene geometry, and 3D human motion with human-scene contact labels. Additionally, we propose PhysDynPose, a physics-based method that incorporates scene geometry and physical constraints for more accurate human motion tracking in case of camera motion and non-flat scenes. More precisely, we use a state-of-the-art kinematics estimator to obtain the human pose and a robust SLAM method to capture the dynamic camera trajectory, enabling the recovery of the human pose in the world frame. We then refine the kinematic pose estimate using our scene-aware physics optimizer. From our new benchmark, we found that even state-of-the-art methods struggle with this inherently challenging setting, i.e. a moving camera and non-planar environments, while our method robustly estimates both human and camera poses in world coordinates.
- Abstract(参考訳): ほとんどの単分子・物理に基づく人間のポーズ追跡法は、最先端の結果を達成する一方で、シーンが厳密に平らな地面面を持っていない場合や、カメラが動いているとき、人工物に悩まされる。
さらに,これらの手法は,実世界の光輸送やカメラの動き,ポーズによって引き起こされる外観や形状の変化のモデル化に失敗し,地平線データや合成データセットを使わずに実世界の映像で評価されることも多い。
この2つの問題に対処するために,動的に動くモノクラーRGBカメラ,シーン幾何学,人間とシーンの接触ラベルを持つ3次元人体の動きの接地トラジェクトリを含む,最初の非合成データセットであるMoviCamを紹介した。
さらに,PhysDynPoseを提案する。この物理手法は,カメラモーションや非平坦なシーンにおいて,より正確な人の動き追跡のために,シーン形状と物理的な制約を組み込んだものである。
より正確には、人間のポーズを得るには最先端のキネマティクス推定器と、ダイナミックカメラの軌跡を捉えるための堅牢なSLAM法を用い、世界フレームにおける人間のポーズの回復を可能にする。
次に、シーン対応物理オプティマイザを用いて、キネマティックポーズ推定を洗練する。
我々の新しいベンチマークから、最先端の手法でさえ、この本質的に困難な状況、すなわち移動カメラと非平面環境に苦しむのに対し、我々の手法は、世界座標における人間とカメラの両方のポーズをしっかりと推定する。
関連論文リスト
- PACE: Human and Camera Motion Estimation from in-the-wild Videos [113.76041632912577]
本研究では,移動カメラのグローバルシーンにおける人間の動きを推定する手法を提案する。
これは、ビデオ中の人間とカメラの動きが混ざり合っているため、非常に難しい作業である。
本研究では,人体とカメラの動作を前景の人体と背景の両方の特徴を用いてアンハングリングする共同最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T19:04:14Z) - Decoupling Human and Camera Motion from Videos in the Wild [67.39432972193929]
本研究では,野生の映像から地球規模の人間の軌道を再構築する手法を提案する。
カメラと人間の動きを分離することで、人間を同じ世界座標系に配置することができる。
論文 参考訳(メタデータ) (2023-02-24T18:59:15Z) - D&D: Learning Human Dynamics from Dynamic Camera [55.60512353465175]
本稿では、物理の法則を活かしたD&D(Learning Human Dynamics from Dynamic Camera)を紹介する。
私たちのアプローチは完全にニューラルネットワークで、物理エンジンのオフライン最適化やシミュレーションなしで動作します。
論文 参考訳(メタデータ) (2022-09-19T06:51:02Z) - Trajectory Optimization for Physics-Based Reconstruction of 3d Human
Pose from Monocular Video [31.96672354594643]
本研究は,単眼映像から身体的に可視な人間の動きを推定する作業に焦点をあてる。
物理を考慮しない既存のアプローチは、しばしば運動人工物と時間的に矛盾した出力を生み出す。
提案手法は,Human3.6Mベンチマークにおける既存の物理法と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2022-05-24T18:02:49Z) - GLAMR: Global Occlusion-Aware Human Mesh Recovery with Dynamic Cameras [99.07219478953982]
ダイナミックカメラで記録したモノクロビデオから3次元グローバルなヒューマンメッシュリカバリのためのアプローチを提案する。
われわれはまず,視覚的動作に基づいて隠蔽されたヒトの身体運動を自己回帰的に埋め込む,深部再生運動充填装置を提案する。
従来の研究とは対照的に,我々の手法はダイナミックカメラを用いても,一貫したグローバル座標で人間のメッシュを再構築する。
論文 参考訳(メタデータ) (2021-12-02T18:59:54Z) - Contact and Human Dynamics from Monocular Video [73.47466545178396]
既存のディープモデルは、ほぼ正確に見えるエラーを含むビデオから2Dと3Dキネマティックのポーズを予測する。
本稿では,最初の2次元と3次元のポーズ推定を入力として,映像系列から3次元の人間の動きを推定する物理に基づく手法を提案する。
論文 参考訳(メタデータ) (2020-07-22T21:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。