論文の概要: DuoMo: Dual Motion Diffusion for World-Space Human Reconstruction
- arxiv url: http://arxiv.org/abs/2603.03265v1
- Date: Tue, 03 Mar 2026 18:54:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.938377
- Title: DuoMo: Dual Motion Diffusion for World-Space Human Reconstruction
- Title(参考訳): DuoMo:世界空間の人体再構成のためのデュアルモーション拡散
- Authors: Yufu Wang, Evonne Ng, Soyong Shin, Rawal Khirodkar, Yuan Dong, Zhaoen Su, Jinhyung Park, Kris Kitani, Alexander Richard, Fabian Prada, Michael Zollhofer,
- Abstract要約: DuoMoは、ノイズや不完全な観察で制約のないビデオから世界空間の座標で人間の動きを復元する生成方法である。
本手法は,運動学習を2つの拡散モデルに分解することでこの問題に対処する。
この2つのモデルは、ノイズや不完全な観察からでも、様々なシーンや軌道をまたいで動きを再構築することができる。
- 参考スコア(独自算出の注目度): 73.7305982336243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present DuoMo, a generative method that recovers human motion in world-space coordinates from unconstrained videos with noisy or incomplete observations. Reconstructing such motion requires solving a fundamental trade-off: generalizing from diverse and noisy video inputs while maintaining global motion consistency. Our approach addresses this problem by factorizing motion learning into two diffusion models. The camera-space model first estimates motion from videos in camera coordinates. The world-space model then lifts this initial estimate into world coordinates and refines it to be globally consistent. Together, the two models can reconstruct motion across diverse scenes and trajectories, even from highly noisy or incomplete observations. Moreover, our formulation is general, generating the motion of mesh vertices directly and bypassing parametric models. DuoMo achieves state-of-the-art performance. On EMDB, our method obtains a 16% reduction in world-space reconstruction error while maintaining low foot skating. On RICH, it obtains a 30% reduction in world-space error. Project page: https://yufu-wang.github.io/duomo/
- Abstract(参考訳): ノイズや不完全な観察を伴う非拘束映像から世界空間座標における人間の動きを復元する生成法であるDuoMoを提案する。
このような動きを再構築するには、基本的なトレードオフ、つまり、グローバルな動きの一貫性を維持しながら、多様でノイズの多いビデオ入力から一般化する必要がある。
本手法は,運動学習を2つの拡散モデルに分解することでこの問題に対処する。
カメラ空間モデルはまず、カメラ座標のビデオから動きを推定する。
世界空間モデルは、この最初の見積もりを世界座標に引き上げ、世界的一貫性を持つように洗練する。
この2つのモデルは、ノイズや不完全な観察からでも、様々なシーンや軌道をまたいで動きを再構築することができる。
さらに、我々の定式化は一般的なもので、メッシュ頂点の運動を直接生成し、パラメトリックモデルをバイパスする。
DuoMoは最先端のパフォーマンスを達成する。
EMDBでは,ローフットスケートを維持しながら世界空間再構成誤差を16%低減する。
RICHでは、世界空間誤差が30%減少する。
プロジェクトページ:https://yufu-wang.github.io/duomo/
関連論文リスト
- Mocap-2-to-3: Multi-view Lifting for Monocular Motion Recovery with 2D Pretraining [49.223455189395025]
Mocap-2-to-3は単分子入力からマルチビューリフトを実行する新しいフレームワークである。
豊富な2次元データを活用するため、複雑な3次元運動を多視点合成に分解する。
本手法は,カメラ空間のモーションリアリズムと世界空間の人間の位置決めの両面において,最先端のアプローチを超越した手法である。
論文 参考訳(メタデータ) (2025-03-05T06:32:49Z) - World-Grounded Human Motion Recovery via Gravity-View Coordinates [60.618543026949226]
本研究では,新しい重力-視座標系における人間のポーズ推定手法を提案する。
提案したGVシステムは、ビデオフレーム毎に自然に重力に整合し、一意に定義されている。
提案手法は,カメラ空間と地上設定の両方でよりリアルな動きを再現し,精度と速度の両方で最先端の手法より優れる。
論文 参考訳(メタデータ) (2024-09-10T17:25:47Z) - TRAM: Global Trajectory and Motion of 3D Humans from in-the-wild Videos [46.11545135199594]
TRAMはSLAMを強固にし、ダイナミックな人間の存在下でカメラの動きを回復させる。
人間の運動運動を抑えるためのビデオトランスモデルを提案する。
論文 参考訳(メタデータ) (2024-03-26T03:10:45Z) - RoHM: Robust Human Motion Reconstruction via Diffusion [58.63706638272891]
RoHMは、モノクロRGB(-D)ビデオから頑健な3次元人間の動きを復元するためのアプローチである。
ノイズと閉鎖された入力データに条件付けし、一貫した大域座標で完全な可塑性運動を再構成した。
本手法は,テスト時に高速でありながら,定性的かつ定量的に最先端の手法より優れる。
論文 参考訳(メタデータ) (2024-01-16T18:57:50Z) - GraMMaR: Ground-aware Motion Model for 3D Human Motion Reconstruction [61.833152949826946]
本研究では,GraMMaRという3次元人体動作再構成のための新しいグラウンド・アウェア・モーション・モデルを提案する。
GraMMaRは、動きシーケンスの各時間ステップにおいて、ポーズにおける遷移の分布と、各関節面と接地面の間の相互作用を学習する。
運動と地面への距離変化との整合性を明確に促進するように訓練されている。
論文 参考訳(メタデータ) (2023-06-29T07:22:20Z) - Decoupling Human and Camera Motion from Videos in the Wild [67.39432972193929]
本研究では,野生の映像から地球規模の人間の軌道を再構築する手法を提案する。
カメラと人間の動きを分離することで、人間を同じ世界座標系に配置することができる。
論文 参考訳(メタデータ) (2023-02-24T18:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。