論文の概要: 4Dynamic: Text-to-4D Generation with Hybrid Priors
- arxiv url: http://arxiv.org/abs/2407.12684v1
- Date: Wed, 17 Jul 2024 16:02:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 16:26:03.968453
- Title: 4Dynamic: Text-to-4D Generation with Hybrid Priors
- Title(参考訳): 4Dynamic: ハイブリッドプリミティブによるテキストから4D生成
- Authors: Yu-Jie Yuan, Leif Kobbelt, Jiwen Liu, Yuan Zhang, Pengfei Wan, Yu-Kun Lai, Lin Gao,
- Abstract要約: 本稿では,ビデオによる直接監督によって動的振幅と信頼性を保証し,テキストから4Dへ変換する新しい手法を提案する。
本手法は,テキスト・ツー・4D生成だけでなく,モノクロ映像からの4D生成も可能にしている。
- 参考スコア(独自算出の注目度): 56.918589589853184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the fascinating generative performance of text-to-image diffusion models, growing text-to-3D generation works explore distilling the 2D generative priors into 3D, using the score distillation sampling (SDS) loss, to bypass the data scarcity problem. The existing text-to-3D methods have achieved promising results in realism and 3D consistency, but text-to-4D generation still faces challenges, including lack of realism and insufficient dynamic motions. In this paper, we propose a novel method for text-to-4D generation, which ensures the dynamic amplitude and authenticity through direct supervision provided by a video prior. Specifically, we adopt a text-to-video diffusion model to generate a reference video and divide 4D generation into two stages: static generation and dynamic generation. The static 3D generation is achieved under the guidance of the input text and the first frame of the reference video, while in the dynamic generation stage, we introduce a customized SDS loss to ensure multi-view consistency, a video-based SDS loss to improve temporal consistency, and most importantly, direct priors from the reference video to ensure the quality of geometry and texture. Moreover, we design a prior-switching training strategy to avoid conflicts between different priors and fully leverage the benefits of each prior. In addition, to enrich the generated motion, we further introduce a dynamic modeling representation composed of a deformation network and a topology network, which ensures dynamic continuity while modeling topological changes. Our method not only supports text-to-4D generation but also enables 4D generation from monocular videos. The comparison experiments demonstrate the superiority of our method compared to existing methods.
- Abstract(参考訳): テキスト・ツー・イメージ拡散モデルの魅力的な生成性能のため、テキスト・ツー・3D生成は、スコア蒸留サンプリング(SDS)損失を用いて2次元生成前駆体を3Dに蒸留し、データ不足を回避している。
既存のテキスト・トゥ・3D法は、リアリズムと3D一貫性において有望な結果を得たが、テキスト・トゥ・4D生成は、リアリズムの欠如や不十分なダイナミックモーションなど、依然として課題に直面している。
本稿では,ビデオによる直接監督による動的振幅と信頼性を保証するテキスト・ツー・4D生成手法を提案する。
具体的には,テキスト間拡散モデルを用いて参照ビデオを生成し,4次元生成を静的生成と動的生成の2段階に分割する。
静的な3D生成は、入力テキストと参照ビデオの第1フレームのガイダンスに基づいて達成されるが、動的生成段階では、マルチビューの一貫性を確保するためのカスタマイズされたSDS損失、時間的一貫性を改善するためのビデオベースのSDS損失、そして最も重要なことは、参照ビデオからの直接の優先順位を導入して、幾何学的およびテクスチャの質を保証する。
さらに、異なる事前間の衝突を回避し、それぞれの事前の利点を完全に活用するための事前調整型トレーニング戦略を設計する。
さらに, 変形ネットワークとトポロジネットワークからなる動的モデリング表現を導入し, トポロジ的変化をモデル化しながら動的連続性を確保する。
本手法は,テキスト・ツー・4D生成だけでなく,モノクロ映像からの4D生成も可能にしている。
比較実験により,既存手法と比較して,本手法の優位性を実証した。
関連論文リスト
- SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency [37.96042037188354]
本稿では,多フレーム・多視点一貫した動的3Dコンテンツ生成のための遅延ビデオ拡散モデルであるStable Video 4D(SV4D)を提案する。
論文 参考訳(メタデータ) (2024-07-24T17:59:43Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z) - 4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling [91.99172731031206]
現在のテキストから4Dの手法は、シーンの外観の質、立体構造、動きの3方向のトレードオフに直面している。
本稿では,複数の事前学習拡散モデルからの監視信号をブレンドする交互最適化手法であるハイブリッドスコア蒸留法を提案する。
論文 参考訳(メタデータ) (2023-11-29T18:58:05Z) - A Unified Approach for Text- and Image-guided 4D Scene Generation [58.658768832653834]
本研究では,テキストから4Dへの新たな2段階合成手法であるDream-in-4Dを提案する。
提案手法は,画像の画質,3次元整合性,テキスト・ツー・4次元生成におけるテキストの忠実度を著しく向上することを示す。
本手法は,テキストから4D,画像から4D,パーソナライズされた4D生成タスクに対して,初めて統一されたアプローチを提供する。
論文 参考訳(メタデータ) (2023-11-28T15:03:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。