Fugu-MT 論文翻訳(概要): 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency

論文の概要: 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency

arxiv url: http://arxiv.org/abs/2312.17225v1
Date: Thu, 28 Dec 2023 18:53:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-29 14:59:31.683573
Title: 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency
Title（参考訳）: 4DGen:時空間一貫性を備えた地上4Dコンテンツ生成
Authors: Yuyang Yin, Dejia Xu, Zhangyang Wang, Yao Zhao, Yunchao Wei
Abstract要約: この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
参考スコア（独自算出の注目度）: 126.75952654863667
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Aided by text-to-image and text-to-video diffusion models, existing 4D content creation pipelines utilize score distillation sampling to optimize the entire dynamic 3D scene. However, as these pipelines generate 4D content from text or image inputs, they incur significant time and effort in prompt engineering through trial and error. This work introduces 4DGen, a novel, holistic framework for grounded 4D content creation that decomposes the 4D generation task into multiple stages. We identify static 3D assets and monocular video sequences as key components in constructing the 4D content. Our pipeline facilitates conditional 4D generation, enabling users to specify geometry (3D assets) and motion (monocular videos), thus offering superior control over content creation. Furthermore, we construct our 4D representation using dynamic 3D Gaussians, which permits efficient, high-resolution supervision through rendering during training, thereby facilitating high-quality 4D generation. Additionally, we employ spatial-temporal pseudo labels on anchor frames, along with seamless consistency priors implemented through 3D-aware score distillation sampling and smoothness regularizations. Compared to existing baselines, our approach yields competitive results in faithfully reconstructing input signals and realistically inferring renderings from novel viewpoints and timesteps. Most importantly, our method supports grounded generation, offering users enhanced control, a feature difficult to achieve with previous methods. Project page: https://vita-group.github.io/4DGen/
Abstract（参考訳）: テキストから画像への拡散モデルとテキストからビデオへの拡散モデルにより、既存の4dコンテンツ作成パイプラインはスコア蒸留サンプリングを利用して動的3dシーン全体を最適化する。しかし、これらのパイプラインはテキストや画像入力から4dコンテンツを生成するため、試行錯誤によるエンジニアリングの迅速化にかなりの時間と労力がかかる。この研究は、4D生成タスクを複数のステージに分解する、4Dコンテンツ作成のための新しい総合的なフレームワークである4DGenを紹介する。静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。我々のパイプラインは条件付き4D生成を容易にし、ユーザがジオメトリ(3Dアセット)とモーション(眼球ビデオ)を指定できるようにする。さらに,動的3次元ガウシアンを用いて4次元表現を構築し,トレーニング中のレンダリングによる効率良く高解像度な監督が可能となり,高品質な4次元生成が容易になる。さらに, アンカーフレームに空間的擬似ラベルを付加し, 3D-Aware スコア蒸留サンプリングと滑らか度正規化により, シームレスな一貫性を実現する。既存のベースラインと比較すると,入力信号を忠実に再構成し,新たな視点やタイムステップからリアルに描画を推測する競争結果が得られる。また,提案手法は,従来手法では実現が困難であった制御の強化を実現するため,基底生成をサポートする。プロジェクトページ: https://vita-group.github.io/4DGen/

関連論文リスト

MVG4D: Image Matrix-Based Multi-View and Motion Generation for 4D Content Creation from a Single Image [8.22464804794448]
静止画像から動的4Dコンテンツを生成する新しいフレームワークであるMVG4Dを提案する。 MVG4Dのコアとなるのは、時間的コヒーレントで空間的に多様なマルチビュー画像を合成するイメージマトリックスモジュールである。本手法は, 時間的一貫性, 幾何学的忠実度, 視覚的リアリズムを効果的に向上させ, 動きの不連続性や背景劣化における重要な課題に対処する。
論文参考訳（メタデータ） (2025-07-24T12:48:14Z)
Video4DGen: Enhancing Video and 4D Generation through Mutual Optimization [31.956858341885436]
Video4DGenは、単一または複数の生成されたビデオから4D表現を生成するのに優れている新しいフレームワークである。 Video4DGenは、仮想現実、アニメーションなどにおけるアプリケーションのための強力なツールを提供する。
論文参考訳（メタデータ） (2025-04-05T12:13:05Z)
Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文参考訳（メタデータ） (2025-03-26T17:59:44Z)
EG4D: Explicit Generation of 4D Object without Score Distillation [105.63506584772331]
DG4Dは、スコア蒸留なしで高品質で一貫した4Dアセットを生成する新しいフレームワークである。私たちのフレームワークは、世代品質のベースラインをかなりのマージンで上回ります。
論文参考訳（メタデータ） (2024-05-28T12:47:22Z)
Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文参考訳（メタデータ） (2024-05-26T17:47:34Z)
SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。我々の手法は、品質と効率の両面で既存の手法を超越している。動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文参考訳（メタデータ） (2024-04-04T18:05:18Z)
Comp4D: LLM-Guided Compositional 4D Scene Generation [65.5810466788355]
合成 4D 生成のための新しいフレームワーク Comp4D について述べる。シーン全体の特異な4D表現を生成する従来の方法とは異なり、Comp4Dはシーン内の各4Dオブジェクトを革新的に別々に構築する。提案手法は, 予め定義された軌道で導かれる合成スコア蒸留技術を用いている。
論文参考訳（メタデータ） (2024-03-25T17:55:52Z)
Beyond Skeletons: Integrative Latent Mapping for Coherent 4D Sequence Generation [48.671462912294594]
与えられた条件下での3次元形状のアニメーションでコヒーレントな4次元配列を生成する新しいフレームワークを提案する。まず、各詳細な3次元形状フレームの形状と色情報を符号化するために、積分潜在統一表現を用いる。提案手法により,低次元空間における拡散モデルを用いて4次元配列の生成を制御できる。
論文参考訳（メタデータ） (2024-03-20T01:59:43Z)
Efficient4D: Fast Dynamic 3D Object Generation from a Single-view Video [42.10482273572879]
本稿では,効率的な4Dオブジェクト生成フレームワークであるEfficient4Dを提案する。異なるカメラビューの下で高品質な時空一貫性の画像を生成し、ラベル付きデータとして使用する。合成ビデオと実ビデオの両方の実験によると、Efficient4Dのスピードは10倍に向上している。
論文参考訳（メタデータ） (2024-01-16T18:58:36Z)
Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。 4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文参考訳（メタデータ） (2023-12-21T11:41:02Z)
4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling [91.99172731031206]
現在のテキストから4Dの手法は、シーンの外観の質、立体構造、動きの3方向のトレードオフに直面している。本稿では,複数の事前学習拡散モデルからの監視信号をブレンドする交互最適化手法であるハイブリッドスコア蒸留法を提案する。
論文参考訳（メタデータ） (2023-11-29T18:58:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。