論文の概要: Comp4D: LLM-Guided Compositional 4D Scene Generation
- arxiv url: http://arxiv.org/abs/2403.16993v1
- Date: Mon, 25 Mar 2024 17:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 20:15:04.199639
- Title: Comp4D: LLM-Guided Compositional 4D Scene Generation
- Title(参考訳): Comp4D: LLM-Guided compositional 4D Scene Generation
- Authors: Dejia Xu, Hanwen Liang, Neel P. Bhatt, Hezhen Hu, Hanxue Liang, Konstantinos N. Plataniotis, Zhangyang Wang,
- Abstract要約: 合成 4D 生成のための新しいフレームワーク Comp4D について述べる。
シーン全体の特異な4D表現を生成する従来の方法とは異なり、Comp4Dはシーン内の各4Dオブジェクトを革新的に別々に構築する。
提案手法は, 予め定義された軌道で導かれる合成スコア蒸留技術を用いている。
- 参考スコア(独自算出の注目度): 65.5810466788355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in diffusion models for 2D and 3D content creation have sparked a surge of interest in generating 4D content. However, the scarcity of 3D scene datasets constrains current methodologies to primarily object-centric generation. To overcome this limitation, we present Comp4D, a novel framework for Compositional 4D Generation. Unlike conventional methods that generate a singular 4D representation of the entire scene, Comp4D innovatively constructs each 4D object within the scene separately. Utilizing Large Language Models (LLMs), the framework begins by decomposing an input text prompt into distinct entities and maps out their trajectories. It then constructs the compositional 4D scene by accurately positioning these objects along their designated paths. To refine the scene, our method employs a compositional score distillation technique guided by the pre-defined trajectories, utilizing pre-trained diffusion models across text-to-image, text-to-video, and text-to-3D domains. Extensive experiments demonstrate our outstanding 4D content creation capability compared to prior arts, showcasing superior visual quality, motion fidelity, and enhanced object interactions.
- Abstract(参考訳): 近年の2次元および3次元コンテンツ生成の拡散モデルの発展により、4次元コンテンツ生成への関心が高まっている。
しかし、3Dシーンデータセットの不足は、現在の方法論を主にオブジェクト中心の生成に制約する。
この制限を克服するために,コンポジション4D生成のための新しいフレームワークであるComp4Dを提案する。
シーン全体の特異な4D表現を生成する従来の方法とは異なり、Comp4Dはシーン内の各4Dオブジェクトを革新的に別々に構築する。
LLM(Large Language Models)を利用することで、入力テキストプロンプトを別のエンティティに分解し、そのトラジェクトリをマップアウトする。
そして、これらのオブジェクトを指定された経路に沿って正確に配置することで、合成4Dシーンを構築する。
そこで本手法では,テキスト・ツー・イメージ,テキスト・トゥ・ビデオ,テキスト・トゥ・3Dドメイン間の事前学習拡散モデルを用いて,事前に定義されたトラジェクトリによって導かれる合成スコアの蒸留手法を用いる。
広汎な実験は、先行技術に比べて優れた4Dコンテンツ作成能力を示し、優れた視覚的品質、動きの忠実さ、強化された物体相互作用を示す。
関連論文リスト
- Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis [60.853577108780414]
既存の4D生成方法は、ユーザフレンドリーな条件に基づいて高品質な4Dオブジェクトやシーンを生成することができる。
現実的な複雑なシーン遷移を可能にする新しいテキストから4D合成フレームワークであるTrans4Dを提案する。
実験では、Trans4Dは、4Dシーンを正確かつ高品質な遷移で生成する既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-10-09T17:56:03Z) - CT4D: Consistent Text-to-4D Generation with Animatable Meshes [53.897244823604346]
我々は,任意のユーザ供給プロンプトから一貫した4Dコンテンツを生成するために,アニマタブルメッシュを直接操作するCT4Dという新しいフレームワークを提案する。
我々のフレームワークは、テキスト整列メッシュの作成を強化するために、ユニークなGenerate-Refine-Animate (GRA)アルゴリズムを組み込んでいる。
定性的かつ定量的な実験結果から,我々のCT4Dフレームワークは,フレーム間の整合性の維持とグローバルジオメトリの保存において,既存のテキスト・ツー・4D技術を超えていることが示された。
論文 参考訳(メタデータ) (2024-08-15T14:41:34Z) - Instruct 4D-to-4D: Editing 4D Scenes as Pseudo-3D Scenes Using 2D Diffusion [30.331519274430594]
命令4D-to-4Dは、高品質な命令誘導動的シーン編集結果を生成する。
我々は、4Dシーンを擬似3Dシーンとして扱い、ビデオ編集における時間的一貫性を実現し、擬似3Dシーンに適用する2つのサブプロブレムに分解する。
様々な場面でのアプローチと編集指示を幅広く評価し,空間的・時間的に一貫した編集結果が得られることを示した。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - 4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling [91.99172731031206]
現在のテキストから4Dの手法は、シーンの外観の質、立体構造、動きの3方向のトレードオフに直面している。
本稿では,複数の事前学習拡散モデルからの監視信号をブレンドする交互最適化手法であるハイブリッドスコア蒸留法を提案する。
論文 参考訳(メタデータ) (2023-11-29T18:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。