論文の概要: Learning to Control Physically-simulated 3D Characters via Generating and Mimicking 2D Motions
- arxiv url: http://arxiv.org/abs/2512.08500v1
- Date: Tue, 09 Dec 2025 11:30:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.936158
- Title: Learning to Control Physically-simulated 3D Characters via Generating and Mimicking 2D Motions
- Title(参考訳): 2次元運動の生成と模倣による物理シミュレーションによる3次元キャラクタの制御
- Authors: Jianan Li, Xiao Chen, Tao Huang, Tien-Tsin Wong,
- Abstract要約: Mimic2DMはビデオから抽出した2Dキーポイント軌跡から直接制御ポリシーを学習する新しい動作模倣フレームワークである。
提案手法は多目的であり,様々な領域にわたる物理的に可塑性かつ多様な動作を効果的に学習できることを示す。
- 参考スコア(独自算出の注目度): 23.080971732537886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video data is more cost-effective than motion capture data for learning 3D character motion controllers, yet synthesizing realistic and diverse behaviors directly from videos remains challenging. Previous approaches typically rely on off-the-shelf motion reconstruction techniques to obtain 3D trajectories for physics-based imitation. These reconstruction methods struggle with generalizability, as they either require 3D training data (potentially scarce) or fail to produce physically plausible poses, hindering their application to challenging scenarios like human-object interaction (HOI) or non-human characters. We tackle this challenge by introducing Mimic2DM, a novel motion imitation framework that learns the control policy directly and solely from widely available 2D keypoint trajectories extracted from videos. By minimizing the reprojection error, we train a general single-view 2D motion tracking policy capable of following arbitrary 2D reference motions in physics simulation, using only 2D motion data. The policy, when trained on diverse 2D motions captured from different or slightly different viewpoints, can further acquire 3D motion tracking capabilities by aggregating multiple views. Moreover, we develop a transformer-based autoregressive 2D motion generator and integrate it into a hierarchical control framework, where the generator produces high-quality 2D reference trajectories to guide the tracking policy. We show that the proposed approach is versatile and can effectively learn to synthesize physically plausible and diverse motions across a range of domains, including dancing, soccer dribbling, and animal movements, without any reliance on explicit 3D motion data. Project Website: https://jiann-li.github.io/mimic2dm/
- Abstract(参考訳): ビデオデータは3Dキャラクタモーションコントローラを学習するためのモーションキャプチャデータよりもコスト効率が高いが、ビデオから直接リアルで多様な振る舞いを合成することは難しい。
それまでのアプローチは、物理学に基づく模倣のための3D軌道を得るために、オフ・ザ・シェルフの運動再構成技術に頼っていた。
これらの再構成手法は3Dトレーニングデータ(潜在的に不足している)を必要とするか、物理的に妥当なポーズを生成できないため、一般化性に苦慮し、人間と物体の相互作用(HOI)や非人間的な文字といった困難なシナリオへの応用を妨げる。
ビデオから抽出した2Dキーポイントトラジェクトリから直接制御ポリシーを直接学習する,新たな動作模倣フレームワークであるMimic2DMを導入することで,この問題に対処する。
再投射誤差を最小化することにより、物理シミュレーションにおいて任意の2次元参照動作を追従できる一般的な単一視点2次元モーショントラッキングポリシーを、2次元モーションデータのみを用いて訓練する。
このポリシーは、異なる視点やわずかに異なる視点から捉えた多様な2Dモーションを訓練することで、複数のビューを集約することで、さらに3Dモーショントラッキング機能を取得することができる。
さらに,トランスを用いた自己回帰型2Dモーションジェネレータを開発し,それを階層的な制御フレームワークに統合し,高品質な2D参照トラジェクトリを生成し,トラッキングポリシーを導出する。
提案手法は汎用性が高く,ダンス,サッカーのドリブル,動物の動きなど,さまざまな領域において,明示的な3Dモーションデータに依存することなく,物理的に可塑性かつ多様な動作を効果的に合成できることが示唆された。
プロジェクトウェブサイト:https://jiann-li.github.io/mimic2dm/
関連論文リスト
- Mocap-2-to-3: Multi-view Lifting for Monocular Motion Recovery with 2D Pretraining [49.223455189395025]
Mocap-2-to-3は単分子入力からマルチビューリフトを実行する新しいフレームワークである。
豊富な2次元データを活用するため、複雑な3次元運動を多視点合成に分解する。
本手法は,カメラ空間のモーションリアリズムと世界空間の人間の位置決めの両面において,最先端のアプローチを超越した手法である。
論文 参考訳(メタデータ) (2025-03-05T06:32:49Z) - Motion-2-to-3: Leveraging 2D Motion Data to Boost 3D Motion Generation [43.915871360698546]
人間の2Dビデオは、幅広いスタイルやアクティビティをカバーし、広範にアクセス可能なモーションデータのソースを提供する。
本研究では,局所的な関節運動をグローバルな動きから切り離し,局所的な動きを2次元データから効率的に学習する枠組みを提案する。
提案手法は,2次元データを効率的に利用し,リアルな3次元動作生成をサポートし,支援対象の動作範囲を拡大する。
論文 参考訳(メタデータ) (2024-12-17T17:34:52Z) - 3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation [83.98251722144195]
制御可能なビデオ生成における従来の方法は、主に物体の動きを操作するために2D制御信号を利用する。
本稿では3次元空間におけるマルチエンタリティダイナミクスを制御する頑健なコントローラである3DTrajMasterを紹介する。
3DTrajMasterは,多心性3D動作を制御するための精度と一般化の両面において,新しい最先端技術を設定する。
論文 参考訳(メタデータ) (2024-12-10T18:55:13Z) - Lifting Motion to the 3D World via 2D Diffusion [19.64801640086107]
トレーニング用に2次元ポーズシーケンスのみを用いてグローバルな3次元動作を予測する新しいアプローチであるMVLiftを紹介する。
MVLiftは、人間のポーズ、人間とオブジェクトの相互作用、動物のポーズなど、さまざまな領域を一般化する。
論文 参考訳(メタデータ) (2024-11-27T23:26:56Z) - MotionBERT: A Unified Perspective on Learning Human Motion
Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。
本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。
動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文 参考訳(メタデータ) (2022-10-12T19:46:25Z) - MoCaNet: Motion Retargeting in-the-wild via Canonicalization Networks [77.56526918859345]
そこで本研究では,制御された環境から3次元動作タスクを実現する新しいフレームワークを提案する。
モーションキャプチャシステムや3D再構成手順を使わずに、2Dモノクロ映像のキャラクタから3Dキャラクタへの体動を可能にする。
論文 参考訳(メタデータ) (2021-12-19T07:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。