論文の概要: MotionCrafter: Dense Geometry and Motion Reconstruction with a 4D VAE
- arxiv url: http://arxiv.org/abs/2602.08961v1
- Date: Mon, 09 Feb 2026 17:58:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.409285
- Title: MotionCrafter: Dense Geometry and Motion Reconstruction with a 4D VAE
- Title(参考訳): MotionCrafter:4D VAEによる高密度な幾何学とモーションレコンストラクション
- Authors: Ruijie Zhu, Jiahao Lu, Wenbo Hu, Xiaoguang Han, Jianfei Cai, Ying Shan, Chuanxia Zheng,
- Abstract要約: MotionCrafterはビデオ拡散に基づくフレームワークで、4Dの幾何学を共同で再構築し、モノクロビデオから密度の高い動きを推定する。
そこで,MotionCrafterは,幾何再構成と密集したシーンフロー推定の両方において,最先端の性能を実現していることを示す。
- 参考スコア(独自算出の注目度): 95.16927402591227
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce MotionCrafter, a video diffusion-based framework that jointly reconstructs 4D geometry and estimates dense motion from a monocular video. The core of our method is a novel joint representation of dense 3D point maps and 3D scene flows in a shared coordinate system, and a novel 4D VAE to effectively learn this representation. Unlike prior work that forces the 3D value and latents to align strictly with RGB VAE latents-despite their fundamentally different distributions-we show that such alignment is unnecessary and leads to suboptimal performance. Instead, we introduce a new data normalization and VAE training strategy that better transfers diffusion priors and greatly improves reconstruction quality. Extensive experiments across multiple datasets demonstrate that MotionCrafter achieves state-of-the-art performance in both geometry reconstruction and dense scene flow estimation, delivering 38.64% and 25.0% improvements in geometry and motion reconstruction, respectively, all without any post-optimization. Project page: https://ruijiezhu94.github.io/MotionCrafter_Page
- Abstract(参考訳): ビデオ拡散に基づくフレームワークであるMotionCrafterを導入し、4次元幾何学を共同で再構築し、モノクロビデオから高密度な動きを推定する。
本手法のコアとなるのは,共有座標系における高密度な3次元点マップと3次元シーンフローの結合表現であり,この表現を効果的に学習するための新しい4D VAEである。
基本的に異なる分布にもかかわらず、3D値とラテントをRGB VAEラテントと厳密に整合させる以前の作業とは異なり、そのようなアライメントは不要であり、最適以下のパフォーマンスをもたらすことを示す。
代わりに、拡散前の転送をより良くし、再構築品質を大幅に改善する新しいデータ正規化とVAEトレーニング戦略を導入する。
複数のデータセットにわたる大規模な実験により、MotionCrafterは、幾何再構成と密集したシーンフロー推定の両方において最先端のパフォーマンスを達成し、それぞれ38.64%と25.0%の改善を、後最適化なしで達成している。
プロジェクトページ:https://ruijiezhu94.github.io/MotionCrafter_Page
関連論文リスト
- Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis [53.48281548500864]
Motion 3-to-4は、単一のモノクロビデオから高品質な4Dダイナミックオブジェクトを合成するためのフィードフォワードフレームワークである。
我々のモデルは、コンパクトな動き潜在表現を学習し、フレーム単位の軌道を予測して、時間的コヒーレントな幾何である完全なロバスト性を取り戻す。
論文 参考訳(メタデータ) (2026-01-20T18:59:48Z) - Joint 3D Geometry Reconstruction and Motion Generation for 4D Synthesis from a Single Image [88.71287865590273]
そこでTrajScene-60Kについて紹介する。
拡散型4次元シーン軌道生成装置(4D-STraG)を提案する。
次に、4Dポイントトラック表現から任意のカメラトラジェクトリでビデオをレンダリングする4Dビュー合成モジュール(4D-Vi)を提案する。
論文 参考訳(メタデータ) (2025-12-04T17:59:10Z) - Motion4D: Learning 3D-Consistent Motion and Semantics for 4D Scene Understanding [54.859943475818234]
基礎モデルからの2次元先行を統一された4次元ガウススプラッティング表現に統合する新しいフレームワークであるMotion4Dを提案する。
1) 局所的な一貫性を維持するために連続的に動き場と意味体を更新する逐次最適化,2) 長期的コヒーレンスのために全ての属性を共同で洗練するグローバル最適化,である。
提案手法は,ポイントベーストラッキング,ビデオオブジェクトセグメンテーション,新しいビュー合成など,多様なシーン理解タスクにおいて,2次元基礎モデルと既存の3Dベースアプローチの両方に優れる。
論文 参考訳(メタデータ) (2025-12-03T09:32:56Z) - Easi3R: Estimating Disentangled Motion from DUSt3R Without Training [69.51086319339662]
Easi3Rは,4次元再構成のための簡易かつ効率的なトレーニングフリー手法である。
提案手法は,事前学習やネットワークファインチューニングの必要性を排除し,推論中の注意適応を適用した。
実世界のダイナミックビデオの実験では、従来の最先端手法よりも軽量な注意適応が著しく優れていたことが示されている。
論文 参考訳(メタデータ) (2025-03-31T17:59:58Z) - Can Video Diffusion Model Reconstruct 4D Geometry? [66.5454886982702]
Sora3Rは、カジュアルなビデオから4Dのポイントマップを推測するために、大きなダイナミックビデオ拡散モデルのリッチ・テンポラリなテンポラリなテンポラリな時間を利用する新しいフレームワークである。
実験により、Sora3Rはカメラのポーズと詳細なシーン形状の両方を確実に復元し、動的4D再構成のための最先端の手法と同等の性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-27T01:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。