論文の概要: MoCapAnything V2: End-to-End Motion Capture for Arbitrary Skeletons
- arxiv url: http://arxiv.org/abs/2604.28130v1
- Date: Thu, 30 Apr 2026 17:16:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.219517
- Title: MoCapAnything V2: End-to-End Motion Capture for Arbitrary Skeletons
- Title(参考訳): MoCapAnything V2: 任意骨格のエンドツーエンドモーションキャプチャ
- Authors: Kehong Gong, Zhengyu Wen, Dao Thien Phong, Mingxi Xu, Weixia He, Qi Wang, Ning Zhang, Zhengyu Li, Guanli Hou, Dongze Lian, Xiaoyu He, Mingyuan Zhang, Hanwang Zhang,
- Abstract要約: 本稿では,ビデオ・ツー・ローテーションとビデオ・ツー・ローテーションを共同で学習し,最適化する,最初のエンドツーエンドフレームワークを提案する。
本手法は, メッシュベースパイプラインの20倍の速度で, 回転誤差を17度から10度, 見えない骨格では6.54度に低減する。
- 参考スコア(独自算出の注目度): 56.68975315643491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent methods for arbitrary-skeleton motion capture from monocular video follow a factorized pipeline, where a Video-to-Pose network predicts joint positions and an analytical inverse-kinematics (IK) stage recovers joint rotations. While effective, this design is inherently limited, since joint positions do not fully determine rotations and leave degrees of freedom such as bone-axis twist ambiguous, and the non-differentiable IK stage prevents the system from adapting to noisy predictions or optimizing for the final animation objective. In this work, we present the first fully end-to-end framework in which both Video-to-Pose and Pose-to-Rotation are learnable and jointly optimized. We observe that the ambiguity in pose-to-rotation mapping arises from missing coordinate system information: the same joint positions can correspond to different rotations under different rest poses and local axis conventions. To resolve this, we introduce a reference pose-rotation pair from the target asset, which, together with the rest pose, not only anchors the mapping but also defines the underlying rotation coordinate system. This formulation turns rotation prediction into a well-constrained conditional problem and enables effective learning. In addition, our model predicts joint positions directly from video without relying on mesh intermediates, improving both robustness and efficiency. Both stages share a skeleton-aware Global-Local Graph-guided Multi-Head Attention (GL-GMHA) module for joint-level local reasoning and global coordination. Experiments on Truebones Zoo and Objaverse show that our method reduces rotation error from ~17 degrees to ~10 degrees, and to 6.54 degrees on unseen skeletons, while achieving ~20x faster inference than mesh-based pipelines. Project page: https://animotionlab.github.io/MoCapAnythingV2/
- Abstract(参考訳): 近年の単眼ビデオからの任意の骨格モーションキャプチャの手法は、ビデオ・ツー・Poseネットワークが関節位置を予測し、解析的逆運動学(IK)段階が関節回転を回復する分解パイプラインに従っている。
この設計は本質的に制限されているが、関節の位置が骨軸ねじれなどの自由度を完全に決定しないため、非微分不可能なIKステージは、システムがノイズの予測に適応したり、最終的なアニメーションの目的を最適化するのを防ぐ。
本研究では,ビデオ・ツー・PoseとPose-to-Rotationの両方が学習可能で,協調的に最適化される,エンドツーエンドのフレームワークを初めて提示する。
ポーズ・ツー・ローテーションマッピングの曖昧さは座標系情報の欠如から生じ、同じ関節位置は異なるレストポーズと局所軸規則の下で異なる回転に対応することができる。
これを解決するために、ターゲット資産からの参照ポーズ-回転対を導入し、残りのポーズとともに、マッピングをアンカーするだけでなく、基礎となる回転座標系も定義する。
この定式化は回転予測をよく制約された条件付き問題に変換し、効果的な学習を可能にする。
さらに,メッシュ中間体に頼らずに映像から直接関節位置を推定し,ロバスト性および効率性を向上する。
両方のステージは、共同レベルのローカル推論とグローバルコーディネーションのための、スケルトン対応のGlobal-Local Graph-Guided Multi-Head Attention (GL-GMHA)モジュールを共有している。
Truebones Zoo と Objaverse の実験により、我々の手法は、メッシュベースのパイプラインよりも約20倍早く、回転誤差を約17度から約10度に減らし、見えない骨格では6.54度に減らした。
プロジェクトページ: https://animotionlab.github.io/MoCapAnythingV2/
関連論文リスト
- Amortized Inverse Kinematics via Graph Attention for Real-Time Human Avatar Animation [16.714345824701386]
逆キネマティクス(英: Inverse Kiinematics)は、アニメーション、ロボティクス、バイオメカニクスにおける中心的な操作である。
IK-GATは1つの前方パスで3次元関節位置から全体関節方向を再構築する軽量グラフアテンションネットワークである。
IK-GATはアニメーション対応のローカルローテーションを製作し、リグされたアバターを直接駆動したりSMPLのようなボディモデルのパラメーターに変換することができる。
論文 参考訳(メタデータ) (2026-04-17T18:30:20Z) - End-to-End Multi-Person Pose Estimation with Pose-Aware Video Transformer [7.19764062839405]
ビデオにおける多人数2Dポーズ推定のためのエンドツーエンドフレームワークを提案する。
鍵となる課題は、複雑な時間軌道と重なり合う時間軌道の下で、個人をフレーム全体で関連付けることである。
本稿では,フレーム内関係と時間デコーダのポーズをモデル化するための空間エンコーダを備えた新しいPose-Aware VideoErEr Network(PAVE-Net)を提案する。
論文 参考訳(メタデータ) (2025-11-17T10:19:35Z) - PoseDiff: A Unified Diffusion Model Bridging Robot Pose Estimation and Video-to-Action Control [67.17998939712326]
本稿では,ロボットの状態推定と制御を単一のフレームワーク内で統一する条件拡散モデルPoseDiffを提案する。
中心となるPoseDiffは、生の視覚を3Dキーポイントや関節角などの構造化されたロボットの状態にマッピングする。
この基盤の上に構築されたPoseDiffは、ビデオからアクションへの逆ダイナミクスに自然に拡張する。
論文 参考訳(メタデータ) (2025-09-29T10:55:48Z) - PoseGRAF: Geometric-Reinforced Adaptive Fusion for Monocular 3D Human Pose Estimation [5.223657684081615]
既存の単眼的な3次元ポーズ推定法は, 骨格の内在方向と角方向の相関性を見越しながら, 関節位置の特徴に依存している。
これらの課題に対処するためのPoseGRAFフレームワークを提案する。
Human3.6M と MPI-INF-3DHP のデータセットによる実験結果から,本手法が最先端の手法を超えることが示された。
論文 参考訳(メタデータ) (2025-06-17T14:59:56Z) - PoseGraphNet++: Enriching 3D Human Pose with Orientation Estimation [43.261111977510105]
既存の骨格に基づく人間のポーズ推定法は関節位置のみを予測する。
本稿では,新しい2D-to-3Dリフトグラフ畳み込みネットワークPoseGraphNet++を提案する。
論文 参考訳(メタデータ) (2023-08-22T13:42:15Z) - Shuffled Autoregression For Motion Interpolation [53.61556200049156]
この作業は、モーションタスクのためのディープラーニングソリューションを提供することを目的としている。
本稿では,自己回帰を任意の(シャッフルされた)順序で生成するために拡張する,emphShuffled AutoRegressionと呼ばれる新しいフレームワークを提案する。
また,3つのステージを終端から終端の時空間運動変換器に組み込んだ依存グラフの構築手法を提案する。
論文 参考訳(メタデータ) (2023-06-10T07:14:59Z) - MotioNet: 3D Human Motion Reconstruction from Monocular Video with
Skeleton Consistency [72.82534577726334]
モノクロビデオから3次元人間の骨格の動きを直接再構成するディープニューラルネットワークであるMotioNetを紹介した。
本手法は,動作表現を完全かつ一般的に使用するキネマティックスケルトンを直接出力する最初のデータ駆動型手法である。
論文 参考訳(メタデータ) (2020-06-22T08:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。