論文の概要: Tex4D: Zero-shot 4D Scene Texturing with Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2410.10821v2
- Date: Fri, 25 Oct 2024 18:13:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 19:24:58.919787
- Title: Tex4D: Zero-shot 4D Scene Texturing with Video Diffusion Models
- Title(参考訳): Tex4D:ビデオ拡散モデルによるゼロショット4Dシーンテクスチャ
- Authors: Jingzhi Bao, Xueting Li, Ming-Hsuan Yang,
- Abstract要約: 3Dメッシュはコンピュータビジョンとグラフィックスにおいて、アニメーションの効率と映画、ゲーム、AR、VRにおける最小限のメモリ使用のために広く利用されている。
しかし、メッシュのための時間的一貫性と現実的なテクスチャを作成することは、プロのアーティストにとって労働集約的だ。
本稿では、メッシュ配列から固有の幾何学とビデオ拡散モデルを統合することで、一貫したテクスチャを生成する3Dテクスチャシーケンスを提案する。
- 参考スコア(独自算出の注目度): 54.35214051961381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D meshes are widely used in computer vision and graphics for their efficiency in animation and minimal memory use, playing a crucial role in movies, games, AR, and VR. However, creating temporally consistent and realistic textures for mesh sequences remains labor-intensive for professional artists. On the other hand, while video diffusion models excel at text-driven video generation, they often lack 3D geometry awareness and struggle with achieving multi-view consistent texturing for 3D meshes. In this work, we present Tex4D, a zero-shot approach that integrates inherent 3D geometry knowledge from mesh sequences with the expressiveness of video diffusion models to produce multi-view and temporally consistent 4D textures. Given an untextured mesh sequence and a text prompt as inputs, our method enhances multi-view consistency by synchronizing the diffusion process across different views through latent aggregation in the UV space. To ensure temporal consistency, we leverage prior knowledge from a conditional video generation model for texture synthesis. However, straightforwardly combining the video diffusion model and the UV texture aggregation leads to blurry results. We analyze the underlying causes and propose a simple yet effective modification to the DDIM sampling process to address this issue. Additionally, we introduce a reference latent texture to strengthen the correlation between frames during the denoising process. To the best of our knowledge, Tex4D is the first method specifically designed for 4D scene texturing. Extensive experiments demonstrate its superiority in producing multi-view and multi-frame consistent videos based on untextured mesh sequences.
- Abstract(参考訳): 3Dメッシュはアニメーションや最小限のメモリ使用のためにコンピュータビジョンやグラフィックスで広く使われており、映画、ゲーム、AR、VRにおいて重要な役割を担っている。
しかし、メッシュシーケンスの時間的一貫性と現実的なテクスチャを作成することは、プロのアーティストにとって労働集約的だ。
一方、動画拡散モデルはテキスト駆動ビデオ生成において優れているが、3次元幾何学的認識が欠如し、3次元メッシュのマルチビュー一貫したテクスチャの達成に苦慮することが多い。
本研究では,メッシュ配列から固有の3次元幾何学的知識と映像拡散モデルの表現性を統合するゼロショットアプローチであるTex4Dを提案し,多視点・時間的に整合した4次元テクスチャを生成する。
入力として非テクスチャメッシュシーケンスとテキストプロンプトが与えられた場合、UV空間の潜在集約を通じて異なるビュー間で拡散過程を同期させることにより、マルチビューの一貫性を向上させる。
時間的一貫性を確保するために,テクスチャ合成のための条件付きビデオ生成モデルから事前知識を活用する。
しかし,ビデオ拡散モデルと紫外線テクスチャアグリゲーションを直接組み合わせることで,ぼやけた結果が得られる。
本研究の目的は,DDIMサンプリングプロセスの簡易かつ効果的な修正を提案し,その課題に対処することにある。
さらに,認知過程におけるフレーム間の相関を強化するために,参照潜在テクスチャを導入する。
我々の知る限り、Tex4Dは4Dシーンのテクスチャに特化して設計された最初の方法である。
拡張実験は、無テクスチャメッシュシーケンスに基づくマルチビューおよびマルチフレーム一貫したビデオの生成において、その優位性を実証している。
関連論文リスト
- CT4D: Consistent Text-to-4D Generation with Animatable Meshes [53.897244823604346]
我々は,任意のユーザ供給プロンプトから一貫した4Dコンテンツを生成するために,アニマタブルメッシュを直接操作するCT4Dという新しいフレームワークを提案する。
我々のフレームワークは、テキスト整列メッシュの作成を強化するために、ユニークなGenerate-Refine-Animate (GRA)アルゴリズムを組み込んでいる。
定性的かつ定量的な実験結果から,我々のCT4Dフレームワークは,フレーム間の整合性の維持とグローバルジオメトリの保存において,既存のテキスト・ツー・4D技術を超えていることが示された。
論文 参考訳(メタデータ) (2024-08-15T14:41:34Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z) - TexFusion: Synthesizing 3D Textures with Text-Guided Image Diffusion
Models [77.85129451435704]
大規模誘導画像拡散モデルを用いて3次元テクスチャを合成する手法を提案する。
具体的には、潜時拡散モデルを利用し、セット・デノナイジング・モデルと集合・デノナイジング・テキスト・マップを適用する。
論文 参考訳(メタデータ) (2023-10-20T19:15:29Z) - Text-To-4D Dynamic Scene Generation [111.89517759596345]
テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。
提案手法では, シーンの外観, 密度, 動きの整合性に最適化された4次元動的ニューラルラジアンス場(NeRF)を用いる。
提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
論文 参考訳(メタデータ) (2023-01-26T18:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。