論文の概要: Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.13763v2
- Date: Wed, 3 Jan 2024 09:40:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 16:07:59.649411
- Title: Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models
- Title(参考訳): 動的3Dガウスと合成拡散モデルを用いたテキストから4D
- Authors: Huan Ling, Seung Wook Kim, Antonio Torralba, Sanja Fidler, Karsten
Kreis
- Abstract要約: 我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
- 参考スコア(独自算出の注目度): 94.07744207257653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided diffusion models have revolutionized image and video generation
and have also been successfully used for optimization-based 3D object
synthesis. Here, we instead focus on the underexplored text-to-4D setting and
synthesize dynamic, animated 3D objects using score distillation methods with
an additional temporal dimension. Compared to previous work, we pursue a novel
compositional generation-based approach, and combine text-to-image,
text-to-video, and 3D-aware multiview diffusion models to provide feedback
during 4D object optimization, thereby simultaneously enforcing temporal
consistency, high-quality visual appearance and realistic geometry. Our method,
called Align Your Gaussians (AYG), leverages dynamic 3D Gaussian Splatting with
deformation fields as 4D representation. Crucial to AYG is a novel method to
regularize the distribution of the moving 3D Gaussians and thereby stabilize
the optimization and induce motion. We also propose a motion amplification
mechanism as well as a new autoregressive synthesis scheme to generate and
combine multiple 4D sequences for longer generation. These techniques allow us
to synthesize vivid dynamic scenes, outperform previous work qualitatively and
quantitatively and achieve state-of-the-art text-to-4D performance. Due to the
Gaussian 4D representation, different 4D animations can be seamlessly combined,
as we demonstrate. AYG opens up promising avenues for animation, simulation and
digital content creation as well as synthetic data generation.
- Abstract(参考訳): テキスト誘導拡散モデルは画像および映像生成に革命をもたらし、最適化に基づく3dオブジェクト合成にも成功している。
そこで本研究では, 時間的次元を付加したスコア蒸留法を用いて, 未熟なtext-to-4d設定に焦点をあて, ダイナミックな3dオブジェクトを合成する。
従来の手法と比較して,テキスト・ツー・イメージ・テキスト・ビデオ・3d対応のマルチビュー拡散モデルを組み合わせて,4次元オブジェクト最適化時のフィードバックを提供し,時間的一貫性,高品質な視覚的外観,リアルな幾何学を実現する。
我々の手法はAlign Your Gaussian (AYG) と呼ばれ、変形場を4次元表現として動的3次元ガウス散乱を利用する。
AYGは移動する3次元ガウスの分布を規則化し、最適化を安定化し、運動を誘導する新しい方法である。
また,動作増幅機構と,複数の4Dシーケンスを生成し,組み合わせてより長い生成を行う新しい自己回帰合成手法を提案する。
これらの技術により、鮮明な動的シーンを合成し、前作を質的かつ定量的に上回り、最先端のテキストから4Dのパフォーマンスを実現することができる。
ガウスの4D表現のため、異なる4Dアニメーションをシームレスに組み合わせることができる。
AYGは、アニメーション、シミュレーション、デジタルコンテンツ作成、および合成データ生成のための有望な道を開く。
関連論文リスト
- PLA4D: Pixel-Level Alignments for Text-to-4D Gaussian Splatting [26.382349137191547]
我々は,静的な3Dオブジェクトを生成し,それらに動きを注入するために,テキストからビデオまでのフレームを明示的な画素アライメントターゲットとして提案する。
本研究では、変形ネットワークを用いてガウスの変化を駆動し、滑らかな4次元物体表面に対する参照再ファインメントを実装するモーションアライメントを開発する。
従来の方法と比較して、PLA4Dはより少ない時間でより優れたテクスチャの詳細を持つ合成出力を生成し、Janus-faced問題を効果的に緩和する。
論文 参考訳(メタデータ) (2024-05-30T11:23:01Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z) - STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians [36.83603109001298]
STAG4Dは、事前訓練された拡散モデルと動的3次元ガウススプラッティングを組み合わせた、高忠実度4D生成のための新しいフレームワークである。
提案手法は, レンダリング品質, 時空間整合性, 生成ロバスト性において, 先行4次元生成よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-22T04:16:33Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - DreamGaussian4D: Generative 4D Gaussian Splatting [56.49043443452339]
DG4D(DreamGaussian 4D:DreamGaussian 4D)はGaussian Splatting(GS)をベースとした効率的な4D生成フレームワークである。
我々の重要な洞察は、空間変換の明示的なモデリングと静的GSを組み合わせることで、4次元生成の効率的かつ強力な表現ができるということである。
ビデオ生成手法は、高画質の4D生成を向上し、価値ある時空間前兆を提供する可能性がある。
論文 参考訳(メタデータ) (2023-12-28T17:16:44Z) - 4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling [91.99172731031206]
現在のテキストから4Dの手法は、シーンの外観の質、立体構造、動きの3方向のトレードオフに直面している。
本稿では,複数の事前学習拡散モデルからの監視信号をブレンドする交互最適化手法であるハイブリッドスコア蒸留法を提案する。
論文 参考訳(メタデータ) (2023-11-29T18:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。