論文の概要: EG4D: Explicit Generation of 4D Object without Score Distillation
- arxiv url: http://arxiv.org/abs/2405.18132v1
- Date: Tue, 28 May 2024 12:47:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 18:39:08.012525
- Title: EG4D: Explicit Generation of 4D Object without Score Distillation
- Title(参考訳): EG4D: スコア蒸留のない4Dオブジェクトの明示的生成
- Authors: Qi Sun, Zhiyang Guo, Ziyu Wan, Jing Nathan Yan, Shengming Yin, Wengang Zhou, Jing Liao, Houqiang Li,
- Abstract要約: DG4Dは、スコア蒸留なしで高品質で一貫した4Dアセットを生成する新しいフレームワークである。
私たちのフレームワークは、世代品質のベースラインをかなりのマージンで上回ります。
- 参考スコア(独自算出の注目度): 105.63506584772331
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, the increasing demand for dynamic 3D assets in design and gaming applications has given rise to powerful generative pipelines capable of synthesizing high-quality 4D objects. Previous methods generally rely on score distillation sampling (SDS) algorithm to infer the unseen views and motion of 4D objects, thus leading to unsatisfactory results with defects like over-saturation and Janus problem. Therefore, inspired by recent progress of video diffusion models, we propose to optimize a 4D representation by explicitly generating multi-view videos from one input image. However, it is far from trivial to handle practical challenges faced by such a pipeline, including dramatic temporal inconsistency, inter-frame geometry and texture diversity, and semantic defects brought by video generation results. To address these issues, we propose DG4D, a novel multi-stage framework that generates high-quality and consistent 4D assets without score distillation. Specifically, collaborative techniques and solutions are developed, including an attention injection strategy to synthesize temporal-consistent multi-view videos, a robust and efficient dynamic reconstruction method based on Gaussian Splatting, and a refinement stage with diffusion prior for semantic restoration. The qualitative results and user preference study demonstrate that our framework outperforms the baselines in generation quality by a considerable margin. Code will be released at \url{https://github.com/jasongzy/EG4D}.
- Abstract(参考訳): 近年、デザインやゲームアプリケーションにおける動的な3Dアセットの需要が高まっており、高品質な4Dオブジェクトを合成できる強力な生成パイプラインが生まれている。
従来の方法では、4Dオブジェクトの見えないビューや動きを推測するためにスコア蒸留サンプリング (SDS) アルゴリズムが一般的であったため、過飽和やジャヌス問題といった欠陥による不満足な結果に繋がった。
そこで本研究では,映像拡散モデルの最近の進歩に触発されて,複数視点映像を1つの入力画像から明示的に生成することで,4次元表現を最適化することを提案する。
しかし、このようなパイプラインが直面する現実的な課題、例えば劇的な時間的不整合、フレーム間形状とテクスチャの多様性、ビデオ生成結果による意味的欠陥などを扱うのは簡単ではない。
これらの課題に対処するため,DG4Dを提案する。DG4Dは,高品質で一貫した4Dアセットを生成する新しい多段階フレームワークである。
具体的には、時間的一貫性のある多視点映像を合成するための注意注入戦略、ガウススプラッティングに基づく堅牢で効率的な動的再構成法、意味的復元に先立って拡散した改良段階を含む、協調的な技術とソリューションを開発する。
定性的な結果とユーザ嗜好の研究は、我々のフレームワークが生成品質のベースラインをかなりのマージンで上回っていることを示している。
コードは \url{https://github.com/jasongzy/EG4D} でリリースされる。
関連論文リスト
- 4Dynamic: Text-to-4D Generation with Hybrid Priors [56.918589589853184]
本稿では,ビデオによる直接監督によって動的振幅と信頼性を保証し,テキストから4Dへ変換する新しい手法を提案する。
本手法は,テキスト・ツー・4D生成だけでなく,モノクロ映像からの4D生成も可能にしている。
論文 参考訳(メタデータ) (2024-07-17T16:02:55Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z) - Diffusion$^2$: Dynamic 3D Content Generation via Score Composition of Video and Multi-view Diffusion Models [6.738732514502613]
Diffusion$2$は動的3Dコンテンツ作成のための新しいフレームワークである。
3次元モデルからの幾何的一貫性と時間的滑らかさに関する知識を精査し、密集した多視点画像を直接サンプリングする。
非常にシームレスで一貫した4Dアセットを生成する上で,提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-02T17:58:03Z) - STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians [36.83603109001298]
STAG4Dは、事前訓練された拡散モデルと動的3次元ガウススプラッティングを組み合わせた、高忠実度4D生成のための新しいフレームワークである。
提案手法は, レンダリング品質, 時空間整合性, 生成ロバスト性において, 先行4次元生成よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-22T04:16:33Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。