論文の概要: MagicPose4D: Crafting Articulated Models with Appearance and Motion Control
- arxiv url: http://arxiv.org/abs/2405.14017v1
- Date: Wed, 22 May 2024 21:51:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 19:54:29.254466
- Title: MagicPose4D: Crafting Articulated Models with Appearance and Motion Control
- Title(参考訳): MagicPose4D:外観とモーション制御を備えた人工モデルの構築
- Authors: Hao Zhang, Di Chang, Fang Li, Mohammad Soleymani, Narendra Ahuja,
- Abstract要約: 我々は4次元世代における外観と動きの制御を洗練するための新しいフレームワークであるMagicPose4Dを提案する。
従来の方法とは異なり、MagicPose4Dはモーションプロンプトとして単眼ビデオを受け入れ、正確でカスタマイズ可能なモーション生成を可能にする。
我々はMagicPose4Dが4Dコンテンツ生成の精度と一貫性を著しく向上し、様々なベンチマークで既存の手法よりも優れていることを示した。
- 参考スコア(独自算出の注目度): 17.161695123524563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the success of 2D and 3D visual generative models, there is growing interest in generating 4D content. Existing methods primarily rely on text prompts to produce 4D content, but they often fall short of accurately defining complex or rare motions. To address this limitation, we propose MagicPose4D, a novel framework for refined control over both appearance and motion in 4D generation. Unlike traditional methods, MagicPose4D accepts monocular videos as motion prompts, enabling precise and customizable motion generation. MagicPose4D comprises two key modules: i) Dual-Phase 4D Reconstruction Module} which operates in two phases. The first phase focuses on capturing the model's shape using accurate 2D supervision and less accurate but geometrically informative 3D pseudo-supervision without imposing skeleton constraints. The second phase refines the model using more accurate pseudo-3D supervision, obtained in the first phase and introduces kinematic chain-based skeleton constraints to ensure physical plausibility. Additionally, we propose a Global-local Chamfer loss that aligns the overall distribution of predicted mesh vertices with the supervision while maintaining part-level alignment without extra annotations. ii) Cross-category Motion Transfer Module} leverages the predictions from the 4D reconstruction module and uses a kinematic-chain-based skeleton to achieve cross-category motion transfer. It ensures smooth transitions between frames through dynamic rigidity, facilitating robust generalization without additional training. Through extensive experiments, we demonstrate that MagicPose4D significantly improves the accuracy and consistency of 4D content generation, outperforming existing methods in various benchmarks.
- Abstract(参考訳): 2次元および3次元視覚生成モデルの成功により、4次元コンテンツ生成への関心が高まっている。
既存の方法は、主に4Dコンテンツを生成するためのテキストプロンプトに依存するが、しばしば複雑な動きや稀な動きを正確に定義することができない。
この制限に対処するため、我々は4D生成における外観と動きの制御を洗練するための新しいフレームワークであるMagicPose4Dを提案する。
従来の方法とは異なり、MagicPose4Dはモーションプロンプトとして単眼ビデオを受け入れ、正確でカスタマイズ可能なモーション生成を可能にする。
MagicPose4Dは2つの重要なモジュールから構成される。
一 二重位相四D復元モジュールであって、二相で行うもの
第1フェーズでは、正確な2Dの監督と、より正確でないが幾何学的に意味のある3D擬似スーパービジョンを用いて、骨格の制約を課すことなく、モデルの形状を捉えることに重点を置いている。
第2フェーズは、第1フェーズで得られたより正確な擬似3D監視を使用してモデルを洗練し、物理的妥当性を確保するために運動的連鎖に基づく骨格制約を導入する。
さらに、予測メッシュ頂点の全体分布を、余分なアノテーションを伴わずに部分レベルのアライメントを維持しながら、監督と整合するグローバルローカルなチャンファー損失を提案する。
二 クロスカテゴリ移動モジュールは、4次元再構成モジュールからの予測を活用し、キネマティックチェーンベースの骨格を用いてクロスカテゴリ移動を実現する。
フレーム間のスムーズな遷移を動的剛性を通じて保証し、追加のトレーニングなしで堅牢な一般化を促進する。
広範にわたる実験により,MagicPose4Dは4次元コンテンツ生成の精度と一貫性を著しく向上し,様々なベンチマークにおいて既存手法よりも優れることを示した。
関連論文リスト
- Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z) - Comp4D: LLM-Guided Compositional 4D Scene Generation [65.5810466788355]
合成 4D 生成のための新しいフレームワーク Comp4D について述べる。
シーン全体の特異な4D表現を生成する従来の方法とは異なり、Comp4Dはシーン内の各4Dオブジェクトを革新的に別々に構築する。
提案手法は, 予め定義された軌道で導かれる合成スコア蒸留技術を用いている。
論文 参考訳(メタデータ) (2024-03-25T17:55:52Z) - Beyond Skeletons: Integrative Latent Mapping for Coherent 4D Sequence Generation [48.671462912294594]
与えられた条件下での3次元形状のアニメーションでコヒーレントな4次元配列を生成する新しいフレームワークを提案する。
まず、各詳細な3次元形状フレームの形状と色情報を符号化するために、積分潜在統一表現を用いる。
提案手法により,低次元空間における拡散モデルを用いて4次元配列の生成を制御できる。
論文 参考訳(メタデータ) (2024-03-20T01:59:43Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - DreamGaussian4D: Generative 4D Gaussian Splatting [56.49043443452339]
DG4D(DreamGaussian 4D:DreamGaussian 4D)はGaussian Splatting(GS)をベースとした効率的な4D生成フレームワークである。
我々の重要な洞察は、空間変換の明示的なモデリングと静的GSを組み合わせることで、4次元生成の効率的かつ強力な表現ができるということである。
ビデオ生成手法は、高画質の4D生成を向上し、価値ある時空間前兆を提供する可能性がある。
論文 参考訳(メタデータ) (2023-12-28T17:16:44Z) - 4DComplete: Non-Rigid Motion Estimation Beyond the Observable Surface [7.637832293935966]
観測されていないジオメトリの非剛体運動を推定する新しいデータ駆動アプローチである4DCompleteを紹介します。
ネットワークトレーニングのために,DeformingThings4Dという大規模合成データセットを構築した。
論文 参考訳(メタデータ) (2021-05-05T07:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。