論文の概要: Learning Coherent Matrixized Representation in Latent Space for Volumetric 4D Generation
- arxiv url: http://arxiv.org/abs/2403.13238v2
- Date: Tue, 20 May 2025 07:15:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:51.032151
- Title: Learning Coherent Matrixized Representation in Latent Space for Volumetric 4D Generation
- Title(参考訳): ボリューム4次元生成のための潜在空間におけるコヒーレント行列化表現の学習
- Authors: Qitong Yang, Mingtao Feng, Zijie Wu, Shijie Sun, Weisheng Dong, Yaonan Wang, Ajmal Mian,
- Abstract要約: 本研究では,空間次元と時間次元をまたいだ形状と色を動的に変化させた4次元配列を生成する枠組みを提案する。
まず、コヒーレントな3次元形状と色モデリングを用いて、各3次元形状フレームの形状と色を潜在空間にエンコードする。
次に,効率的な拡散モデル演算が可能な行列化4次元シーケンス表現を提案する。
- 参考スコア(独自算出の注目度): 48.671462912294594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Directly learning to model 4D content, including shape, color, and motion, is challenging. Existing methods rely on pose priors for motion control, resulting in limited motion diversity and continuity in details. To address this, we propose a framework that generates volumetric 4D sequences, where 3D shapes are animated under given conditions (text-image guidance) with dynamic evolution in shape and color across spatial and temporal dimensions, allowing for free navigation and rendering from any direction. We first use a coherent 3D shape and color modeling to encode the shape and color of each detailed 3D geometry frame into a latent space. Then we propose a matrixized 4D sequence representation allowing efficient diffusion model operation. Finally, we introduce spatio-temporal diffusion for 4D volumetric generation under given images and text prompts. Extensive experiments on the ShapeNet, 3DBiCar, DeformingThings4D and Objaverse datasets for several tasks demonstrate that our method effectively learns to generate high quality 3D shapes with consistent color and coherent mesh animations, improving over the current methods. Our code will be publicly available.
- Abstract(参考訳): 形状、色、動きを含む4Dコンテンツをモデル化する直接学習は難しい。
既存の手法は、モーションコントロールのポーズ先を頼りにしており、結果として動きの多様性と細部への連続性が制限される。
そこで本研究では,空間的・時間的次元にわたって形状と色が動的に変化し,任意の方向から自由なナビゲーションや描画が可能な,所定の条件下で3次元形状をアニメーション(テキストイメージガイダンス)する,ボリューム4Dシーケンスを生成するフレームワークを提案する。
まず、コヒーレントな3次元形状と色モデリングを用いて、詳細な3次元形状フレームの形状と色を潜在空間に符号化する。
次に,効率的な拡散モデル演算が可能な行列化4次元シーケンス表現を提案する。
最後に、与えられた画像とテキストのプロンプトの下での4次元ボリューム生成のための時空間拡散について述べる。
そこで,ShapeNet,3DBiCar,DeformingThings4D,Objaverseの複数のタスクを対象とした大規模な実験により,一貫した色とコヒーレントなメッシュアニメーションによる高品質な3D形状の生成を効果的に学習し,現在の手法よりも改善したことを示す。
私たちのコードは公開されます。
関連論文リスト
- Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - CT4D: Consistent Text-to-4D Generation with Animatable Meshes [53.897244823604346]
我々は,任意のユーザ供給プロンプトから一貫した4Dコンテンツを生成するために,アニマタブルメッシュを直接操作するCT4Dという新しいフレームワークを提案する。
我々のフレームワークは、テキスト整列メッシュの作成を強化するために、ユニークなGenerate-Refine-Animate (GRA)アルゴリズムを組み込んでいる。
定性的かつ定量的な実験結果から,我々のCT4Dフレームワークは,フレーム間の整合性の維持とグローバルジオメトリの保存において,既存のテキスト・ツー・4D技術を超えていることが示された。
論文 参考訳(メタデータ) (2024-08-15T14:41:34Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - MagicPose4D: Crafting Articulated Models with Appearance and Motion Control [17.161695123524563]
我々は4次元生成における外観と動きの制御を洗練させるフレームワークであるMagicPose4Dを提案する。
現行の4D生成方法とは異なり、MagicPose4Dはモーションプロンプトとしてモノクラービデオやメッシュシーケンスを受け入れる。
我々はMagicPose4Dが4Dコンテンツ生成の精度と一貫性を著しく向上することを示した。
論文 参考訳(メタデータ) (2024-05-22T21:51:01Z) - Comp4D: LLM-Guided Compositional 4D Scene Generation [65.5810466788355]
合成 4D 生成のための新しいフレームワーク Comp4D について述べる。
シーン全体の特異な4D表現を生成する従来の方法とは異なり、Comp4Dはシーン内の各4Dオブジェクトを革新的に別々に構築する。
提案手法は, 予め定義された軌道で導かれる合成スコア蒸留技術を用いている。
論文 参考訳(メタデータ) (2024-03-25T17:55:52Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z) - Consistent4D: Consistent 360{\deg} Dynamic Object Generation from
Monocular Video [15.621374353364468]
Consistent4Dは、モノクロビデオから4D動的オブジェクトを生成するための新しいアプローチである。
我々は、360度ダイナミックオブジェクト再構成を4次元生成問題として、退屈なマルチビューデータ収集とカメラキャリブレーションの必要性を排除した。
論文 参考訳(メタデータ) (2023-11-06T03:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。