論文の概要: MoCapAnything: Unified 3D Motion Capture for Arbitrary Skeletons from Monocular Videos
- arxiv url: http://arxiv.org/abs/2512.10881v1
- Date: Thu, 11 Dec 2025 18:09:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.50804
- Title: MoCapAnything: Unified 3D Motion Capture for Arbitrary Skeletons from Monocular Videos
- Title(参考訳): MoCapAnything:モノクラービデオからの任意骨格の3Dモーションキャプチャ
- Authors: Kehong Gong, Zhengyu Wen, Weixia He, Mingxi Xu, Qi Wang, Ning Zhang, Zhengyu Li, Dongze Lian, Wei Zhao, Xiaoyu He, Mingyuan Zhang,
- Abstract要約: MoCapAnythingは、3Dモーションキャプチャーのための基準誘導、因子化フレームワークである。
特定の資産を直接駆動する回転ベースのアニメーションを再構成する。
高品質な骨格アニメーションと有意義なクロスタイプアニメーションを提供する。
- 参考スコア(独自算出の注目度): 31.168481928653748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motion capture now underpins content creation far beyond digital humans, yet most existing pipelines remain species- or template-specific. We formalize this gap as Category-Agnostic Motion Capture (CAMoCap): given a monocular video and an arbitrary rigged 3D asset as a prompt, the goal is to reconstruct a rotation-based animation such as BVH that directly drives the specific asset. We present MoCapAnything, a reference-guided, factorized framework that first predicts 3D joint trajectories and then recovers asset-specific rotations via constraint-aware inverse kinematics. The system contains three learnable modules and a lightweight IK stage: (1) a Reference Prompt Encoder that extracts per-joint queries from the asset's skeleton, mesh, and rendered images; (2) a Video Feature Extractor that computes dense visual descriptors and reconstructs a coarse 4D deforming mesh to bridge the gap between video and joint space; and (3) a Unified Motion Decoder that fuses these cues to produce temporally coherent trajectories. We also curate Truebones Zoo with 1038 motion clips, each providing a standardized skeleton-mesh-render triad. Experiments on both in-domain benchmarks and in-the-wild videos show that MoCapAnything delivers high-quality skeletal animations and exhibits meaningful cross-species retargeting across heterogeneous rigs, enabling scalable, prompt-driven 3D motion capture for arbitrary assets. Project page: https://animotionlab.github.io/MoCapAnything/
- Abstract(参考訳): モーションキャプチャーは、デジタル人間をはるかに超越したコンテンツの創造を支えているが、既存のパイプラインのほとんどは、種やテンプレート固有のままだ。
このギャップをカテゴリー非依存モーションキャプチャ(CAMoCap: Category-Agnostic Motion Capture)として形式化し、モノクロビデオと任意のトリグされた3Dアセットをプロンプトとして与えることで、特定のアセットを直接駆動するBVHのようなローテーションベースのアニメーションを再構築する。
本稿では,まず3次元関節軌跡を予測し,制約認識逆運動学を用いてアセット固有回転を復元する参照誘導因子化フレームワークであるMoCapAnythingを提案する。
本システムは、3つの学習可能なモジュールと軽量IKステージを含む:(1) 資産の骨格、メッシュ、レンダリング画像から結合したクエリを抽出する参照プロンプトエンコーダ、(2) 濃密な視覚記述子を計算し、ビデオ空間と関節空間のギャップを埋めるために粗い4D変形メッシュを再構成するビデオ特徴エクストラクタ、(3) これらのキューを融合して時間的に一貫性のある軌跡を生成する統一運動デコーダ。
また、Truebones Zooを1038本のモーションクリップでキュレートし、それぞれが標準化されたスケルトンメシュレンダートリアドを提供する。
MoCapAnythingは高品質な骨格アニメーションを提供し、異種リグにまたがって意味のあるクロス種を再現し、任意の資産に対してスケーラブルでプロンプト駆動の3Dモーションキャプチャを可能にする。
プロジェクトページ: https://animotionlab.github.io/MoCapAnything/
関連論文リスト
- DIMO: Diverse 3D Motion Generation for Arbitrary Objects [57.14954351767432]
DIMOは、単一の画像から任意のオブジェクトに対して多様な3Dモーションを生成することができる生成的アプローチである。
我々は、よく訓練されたビデオモデルにおけるリッチな事前情報を利用して、共通の動きパターンを抽出する。
学習した潜時空間での推論時間の間、単方向パスで様々な3次元運動を瞬時にサンプリングすることができる。
論文 参考訳(メタデータ) (2025-11-10T18:56:49Z) - Restage4D: Reanimating Deformable 3D Reconstruction from a Single Video [56.781766315691854]
ビデオ条件付き4D再生のための幾何学保存パイプラインである textbfRestage4D を紹介する。
DAVIS と PointOdyssey 上のRestage4D の有効性を検証し,幾何整合性,運動品質,3次元追跡性能の向上を実証した。
論文 参考訳(メタデータ) (2025-08-08T21:31:51Z) - AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models [24.410731608387238]
AnimaXは、ビデオ拡散モデルの動作先をスケルトンベースのアニメーションの制御可能な構造でブリッジするフィードフォワード3Dアニメーションフレームワークである。
提案手法は,マルチビュー・マルチフレーム2次元ポーズマップとして3次元動作を表現する。
論文 参考訳(メタデータ) (2025-06-24T17:59:58Z) - SMF: Template-free and Rig-free Animation Transfer using Kinetic Codes [32.324844649352166]
アニメーション再ターゲッティングはキャラクタメッシュにスパース動作記述を適用し、意味論的に妥当で時間的に整合したフルボディシーケンスを生成する。
本稿では,スパース動作表現のみを訓練した自己教師型運動場(SMF)を提案する。
我々のアーキテクチャは、エンドツーエンドで共同で訓練された専用空間勾配予測器と時間勾配予測器から構成される。
論文 参考訳(メタデータ) (2025-04-07T08:42:52Z) - Recovering Dynamic 3D Sketches from Videos [30.87733869892925]
Liv3Strokeは、変形可能な3Dストロークで動作中のオブジェクトを抽象化する新しいアプローチである。
まず,映像フレームから3Dポイント・クラウド・モーション・ガイダンスを意味的特徴を用いて抽出する。
提案手法は, 自然な3次元表現の集合として本質的な運動特徴を抽象化する曲線の集合を変形する。
論文 参考訳(メタデータ) (2025-03-26T08:43:21Z) - Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [79.4785166021062]
本稿では,対話型ビデオジェネレータPuppet-Masterを紹介した。
Puppet-Masterは、他のモーションコンディショニングビデオジェネレータとは異なり、パートレベルのモーションを生成することを学習している。
Puppet-Masterはドメイン外の実際のイメージを一般化し、実世界のベンチマークで既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - Ponymation: Learning Articulated 3D Animal Motions from Unlabeled Online Videos [47.97168047776216]
そこで,本研究では,生の未表示オンラインビデオから3次元動物運動の合成モデルを学習するための新しい手法を提案する。
我々のモデルは、自己教師付き画像の特徴から抽出した意味的対応を利用して、ラベルなしのウェブビデオクリップの集合から純粋に学習する。
論文 参考訳(メタデータ) (2023-12-21T06:44:18Z) - MoCaNet: Motion Retargeting in-the-wild via Canonicalization Networks [77.56526918859345]
そこで本研究では,制御された環境から3次元動作タスクを実現する新しいフレームワークを提案する。
モーションキャプチャシステムや3D再構成手順を使わずに、2Dモノクロ映像のキャラクタから3Dキャラクタへの体動を可能にする。
論文 参考訳(メタデータ) (2021-12-19T07:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。