論文の概要: PhysHMR: Learning Humanoid Control Policies from Vision for Physically Plausible Human Motion Reconstruction
- arxiv url: http://arxiv.org/abs/2510.02566v1
- Date: Thu, 02 Oct 2025 21:01:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.17711
- Title: PhysHMR: Learning Humanoid Control Policies from Vision for Physically Plausible Human Motion Reconstruction
- Title(参考訳): PhysHMR : 視覚からのヒューマノイド制御の学習
- Authors: Qiao Feng, Yiming Huang, Yufu Wang, Jiatao Gu, Lingjie Liu,
- Abstract要約: 物理学に基づくシミュレーターにおいて,ヒューマノイド制御のための視覚行動ポリシーを学習する統合フレームワークであるPhysHMRを提案する。
我々のアプローチの重要な要素はピクセル・アズ・レイ戦略であり、2次元のキーポイントを3次元空間に上げ、それらを大域空間に変換する。
PhysHMRは多種多様なシナリオにまたがって高忠実で物理的に妥当な動きを生じさせ、視覚的精度と身体的リアリズムの両方において以前のアプローチより優れている。
- 参考スコア(独自算出の注目度): 52.44375492811009
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reconstructing physically plausible human motion from monocular videos remains a challenging problem in computer vision and graphics. Existing methods primarily focus on kinematics-based pose estimation, often leading to unrealistic results due to the lack of physical constraints. To address such artifacts, prior methods have typically relied on physics-based post-processing following the initial kinematics-based motion estimation. However, this two-stage design introduces error accumulation, ultimately limiting the overall reconstruction quality. In this paper, we present PhysHMR, a unified framework that directly learns a visual-to-action policy for humanoid control in a physics-based simulator, enabling motion reconstruction that is both physically grounded and visually aligned with the input video. A key component of our approach is the pixel-as-ray strategy, which lifts 2D keypoints into 3D spatial rays and transforms them into global space. These rays are incorporated as policy inputs, providing robust global pose guidance without depending on noisy 3D root predictions. This soft global grounding, combined with local visual features from a pretrained encoder, allows the policy to reason over both detailed pose and global positioning. To overcome the sample inefficiency of reinforcement learning, we further introduce a distillation scheme that transfers motion knowledge from a mocap-trained expert to the vision-conditioned policy, which is then refined using physically motivated reinforcement learning rewards. Extensive experiments demonstrate that PhysHMR produces high-fidelity, physically plausible motion across diverse scenarios, outperforming prior approaches in both visual accuracy and physical realism.
- Abstract(参考訳): モノクロビデオから物理的にもっともらしい人間の動きを再構成することは、コンピュータビジョンとグラフィックスにおいて難しい問題である。
既存の手法は主にキネマティクスに基づくポーズ推定に焦点を当てており、しばしば物理的制約の欠如により非現実的な結果をもたらす。
このようなアーティファクトに対処するために、従来の手法は初期のキネマティクスに基づく運動推定の後、物理学に基づく後処理に依存してきた。
しかし、この2段階の設計はエラーの蓄積を導入し、最終的に全体の再構築品質を制限した。
本稿では,物理シミュレーションにおけるヒューマノイド制御の視覚的・行動的ポリシーを直接学習する統合フレームワークであるPhysHMRについて述べる。
我々のアプローチの重要な要素はピクセル・アズ・レイ戦略であり、2次元のキーポイントを3次元空間に上げ、それらを大域空間に変換する。
これらの光線はポリシー入力として組み込まれ、ノイズの多い3Dルート予測に依存することなく、ロバストなグローバルポーズガイダンスを提供する。
このソフトなグローバルグラウンドは、事前訓練されたエンコーダの局所的な視覚的特徴と組み合わせて、ポリシーが詳細なポーズとグローバルな位置の両方を推論することを可能にする。
強化学習のサンプル非効率性を克服するために,モカプ訓練の専門家から視覚条件付き政策に運動知識を伝達する蒸留方式を導入する。
広汎な実験により、PhysHMRは様々なシナリオにまたがって高忠実で物理的に妥当な動きを生じさせ、視覚的精度と身体的リアリズムの両方において先行したアプローチより優れていることが示されている。
関連論文リスト
- Half-Physics: Enabling Kinematic 3D Human Model with Physical Interactions [89.88331682333198]
SMPL-Xを周囲との動的物理的相互作用が可能な有形実体に埋め込む新しい手法を提案する。
本手法は,シーンやオブジェクトとの物理的に妥当な相互作用を確保しつつ,固有のSMPL-Xポーズの運動制御を維持する。
広範かつ複雑な訓練を必要とする強化学習法とは異なり、ハーフフィック法は学習自由であり、あらゆる身体形状や運動に一般化する。
論文 参考訳(メタデータ) (2025-07-31T17:58:33Z) - Physics-based Human Pose Estimation from a Single Moving RGB Camera [47.50334809388003]
MoviCamは、地上のトラジェクトリを含む最初の非合成データセットである。
PhysDynPoseは、シーン幾何学と物理的な制約を組み込んだ物理ベースの手法である。
我々の手法は世界座標における人間とカメラの両方のポーズを頑健に推定する。
論文 参考訳(メタデータ) (2025-07-23T11:04:30Z) - Optimal-state Dynamics Estimation for Physics-based Human Motion Capture from Videos [6.093379844890164]
オンライン環境での運動学観測に物理モデルを選択的に組み込む新しい手法を提案する。
リカレントニューラルネットワークを導入し、キネマティックス入力とシミュレートされた動作を熱心にバランスするカルマンフィルタを実現する。
提案手法は,物理に基づく人間のポーズ推定作業に優れ,予測力学の物理的妥当性を示す。
論文 参考訳(メタデータ) (2024-10-10T10:24:59Z) - Trajectory Optimization for Physics-Based Reconstruction of 3d Human
Pose from Monocular Video [31.96672354594643]
本研究は,単眼映像から身体的に可視な人間の動きを推定する作業に焦点をあてる。
物理を考慮しない既存のアプローチは、しばしば運動人工物と時間的に矛盾した出力を生み出す。
提案手法は,Human3.6Mベンチマークにおける既存の物理法と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2022-05-24T18:02:49Z) - Deep Physics-aware Inference of Cloth Deformation for Monocular Human
Performance Capture [84.73946704272113]
物理をトレーニングプロセスに統合することで、学習した布の変形が改善し、衣服を別の幾何学的要素としてモデル化できることを示す。
提案手法は現在の最先端手法よりも大幅に改善され,人間の衣服の変形面全体に対する現実的なモノクロキャプチャに向けた明確なステップとなる。
論文 参考訳(メタデータ) (2020-11-25T16:46:00Z) - Contact and Human Dynamics from Monocular Video [73.47466545178396]
既存のディープモデルは、ほぼ正確に見えるエラーを含むビデオから2Dと3Dキネマティックのポーズを予測する。
本稿では,最初の2次元と3次元のポーズ推定を入力として,映像系列から3次元の人間の動きを推定する物理に基づく手法を提案する。
論文 参考訳(メタデータ) (2020-07-22T21:09:11Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。