論文の概要: 4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling
- arxiv url: http://arxiv.org/abs/2311.17984v1
- Date: Wed, 29 Nov 2023 18:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 19:13:52.037953
- Title: 4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling
- Title(参考訳): 4D-fy:ハイブリッドスコア蒸留サンプリングによるテキストから4D生成
- Authors: Sherwin Bahmani, Ivan Skorokhodov, Victor Rong, Gordon Wetzstein,
Leonidas Guibas, Peter Wonka, Sergey Tulyakov, Jeong Joon Park, Andrea
Tagliasacchi, David B. Lindell
- Abstract要約: 現在のテキストから4Dの手法は、シーンの外観の質、立体構造、動きの3方向のトレードオフに直面している。
本稿では,複数の事前学習拡散モデルからの監視信号をブレンドする交互最適化手法であるハイブリッドスコア蒸留法を提案する。
- 参考スコア(独自算出の注目度): 95.05258491077785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent breakthroughs in text-to-4D generation rely on pre-trained
text-to-image and text-to-video models to generate dynamic 3D scenes. However,
current text-to-4D methods face a three-way tradeoff between the quality of
scene appearance, 3D structure, and motion. For example, text-to-image models
and their 3D-aware variants are trained on internet-scale image datasets and
can be used to produce scenes with realistic appearance and 3D structure -- but
no motion. Text-to-video models are trained on relatively smaller video
datasets and can produce scenes with motion, but poorer appearance and 3D
structure. While these models have complementary strengths, they also have
opposing weaknesses, making it difficult to combine them in a way that
alleviates this three-way tradeoff. Here, we introduce hybrid score
distillation sampling, an alternating optimization procedure that blends
supervision signals from multiple pre-trained diffusion models and incorporates
benefits of each for high-fidelity text-to-4D generation. Using hybrid SDS, we
demonstrate synthesis of 4D scenes with compelling appearance, 3D structure,
and motion.
- Abstract(参考訳): 最近のtext-to-4d生成のブレークスルーは、事前に訓練されたtext-to-imageとtext-to-videoモデルを使用してダイナミックな3dシーンを生成する。
しかし、現在のテキストから4Dの手法は、シーンの外観、立体構造、動きの質の3方向のトレードオフに直面している。
例えば、テキストから画像へのモデルとその3d認識型は、インターネット規模の画像データセットでトレーニングされ、リアルな外観と3d構造を持つシーンを生成できる。
テキストからビデオへのモデルは、比較的小さなビデオデータセットで訓練され、動きのあるシーンを作ることができる。
これらのモデルは相補的な強みを持つが、相反する弱みを持つため、この3方向のトレードオフを緩和する方法でそれらを組み合わせることは困難である。
本稿では,複数の事前学習拡散モデルからの監視信号をブレンドする交互最適化手法であるハイブリッドスコア蒸留法について紹介する。
ハイブリッドSDSを用いて, 魅力的な外観, 3次元構造, 動きを持つ4次元シーンの合成を実演する。
関連論文リスト
- 4Dynamic: Text-to-4D Generation with Hybrid Priors [56.918589589853184]
本稿では,ビデオによる直接監督によって動的振幅と信頼性を保証し,テキストから4Dへ変換する新しい手法を提案する。
本手法は,テキスト・ツー・4D生成だけでなく,モノクロ映像からの4D生成も可能にしている。
論文 参考訳(メタデータ) (2024-07-17T16:02:55Z) - TC4D: Trajectory-Conditioned Text-to-4D Generation [94.90700997568158]
提案するTC4D: trajectory-conditioned text-to-4D 生成は,グローバルおよびローカルなコンポーネントへの移動を要因とする。
我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。
提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,および生成した動きのリアリズムと量に対する大幅な改善を可能にする。
論文 参考訳(メタデータ) (2024-03-26T17:55:11Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z) - Text-To-4D Dynamic Scene Generation [111.89517759596345]
テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。
提案手法では, シーンの外観, 密度, 動きの整合性に最適化された4次元動的ニューラルラジアンス場(NeRF)を用いる。
提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
論文 参考訳(メタデータ) (2023-01-26T18:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。