論文の概要: Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.13763v2
- Date: Wed, 3 Jan 2024 09:40:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 16:07:59.649411
- Title: Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models
- Title(参考訳): 動的3Dガウスと合成拡散モデルを用いたテキストから4D
- Authors: Huan Ling, Seung Wook Kim, Antonio Torralba, Sanja Fidler, Karsten
Kreis
- Abstract要約: 我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
- 参考スコア(独自算出の注目度): 94.07744207257653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided diffusion models have revolutionized image and video generation
and have also been successfully used for optimization-based 3D object
synthesis. Here, we instead focus on the underexplored text-to-4D setting and
synthesize dynamic, animated 3D objects using score distillation methods with
an additional temporal dimension. Compared to previous work, we pursue a novel
compositional generation-based approach, and combine text-to-image,
text-to-video, and 3D-aware multiview diffusion models to provide feedback
during 4D object optimization, thereby simultaneously enforcing temporal
consistency, high-quality visual appearance and realistic geometry. Our method,
called Align Your Gaussians (AYG), leverages dynamic 3D Gaussian Splatting with
deformation fields as 4D representation. Crucial to AYG is a novel method to
regularize the distribution of the moving 3D Gaussians and thereby stabilize
the optimization and induce motion. We also propose a motion amplification
mechanism as well as a new autoregressive synthesis scheme to generate and
combine multiple 4D sequences for longer generation. These techniques allow us
to synthesize vivid dynamic scenes, outperform previous work qualitatively and
quantitatively and achieve state-of-the-art text-to-4D performance. Due to the
Gaussian 4D representation, different 4D animations can be seamlessly combined,
as we demonstrate. AYG opens up promising avenues for animation, simulation and
digital content creation as well as synthetic data generation.
- Abstract(参考訳): テキスト誘導拡散モデルは画像および映像生成に革命をもたらし、最適化に基づく3dオブジェクト合成にも成功している。
そこで本研究では, 時間的次元を付加したスコア蒸留法を用いて, 未熟なtext-to-4d設定に焦点をあて, ダイナミックな3dオブジェクトを合成する。
従来の手法と比較して,テキスト・ツー・イメージ・テキスト・ビデオ・3d対応のマルチビュー拡散モデルを組み合わせて,4次元オブジェクト最適化時のフィードバックを提供し,時間的一貫性,高品質な視覚的外観,リアルな幾何学を実現する。
我々の手法はAlign Your Gaussian (AYG) と呼ばれ、変形場を4次元表現として動的3次元ガウス散乱を利用する。
AYGは移動する3次元ガウスの分布を規則化し、最適化を安定化し、運動を誘導する新しい方法である。
また,動作増幅機構と,複数の4Dシーケンスを生成し,組み合わせてより長い生成を行う新しい自己回帰合成手法を提案する。
これらの技術により、鮮明な動的シーンを合成し、前作を質的かつ定量的に上回り、最先端のテキストから4Dのパフォーマンスを実現することができる。
ガウスの4D表現のため、異なる4Dアニメーションをシームレスに組み合わせることができる。
AYGは、アニメーション、シミュレーション、デジタルコンテンツ作成、および合成データ生成のための有望な道を開く。
関連論文リスト
- 4D Gaussian Splatting: Towards Efficient Novel View Synthesis for
Dynamic Scenes [35.115901298045316]
異方性4D XYZTガウスの動的シーンを表現する新しい手法である4D Gaussian Splatting (4DGS)を紹介した。
動的3次元ガウスを自然に構成する4次元ガウスを時間的にスライスすることで、各タイムスタンプのダイナミクスをモデル化する。
空間的時間的表現として、4DGSは複雑な詳細、特に急激な動きのあるシーンをモデル化する強力な能力を示す。
論文 参考訳(メタデータ) (2024-02-05T18:59:04Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [126.75952654863667]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - DreamGaussian4D: Generative 4D Gaussian Splatting [59.32318797882129]
本研究では,4次元ガウス分割表現に基づく効率的な4次元生成フレームワークであるDreamGaussian4Dを紹介する。
我々の重要な洞察は、ガウススプラッティングにおける空間変換の明示的なモデリングが、4次元生成設定により適しているということである。
DreamGaussian4Dは最適化時間を数時間から数分に短縮し、生成された3Dモーションの柔軟な制御を可能にし、3Dエンジンで効率的にレンダリングできるアニメーションメッシュを生成する。
論文 参考訳(メタデータ) (2023-12-28T17:16:44Z) - 4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling [95.05258491077785]
現在のテキストから4Dの手法は、シーンの外観の質、立体構造、動きの3方向のトレードオフに直面している。
本稿では,複数の事前学習拡散モデルからの監視信号をブレンドする交互最適化手法であるハイブリッドスコア蒸留法を提案する。
論文 参考訳(メタデータ) (2023-11-29T18:58:05Z) - Dynamic 3D Gaussians: Tracking by Persistent Dynamic View Synthesis [58.5779956899918]
動的シーンビュー合成と6自由度(6-DOF)追跡のタスクを同時に処理する手法を提案する。
我々は、シーンを3Dガウスアンのコレクションとしてモデル化する最近の研究に触発された、分析バイシンセサイザーの枠組みに従う。
我々は,1人称視点合成,動的合成シーン合成,4次元映像編集など,我々の表現によって実現された多数のダウンストリームアプリケーションを紹介した。
論文 参考訳(メタデータ) (2023-08-18T17:59:21Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。