Fugu-MT 論文翻訳(概要): Vidu4D: Single Generated Video to High-Fidelity 4D Reconstruction with Dynamic Gaussian Surfels

論文の概要: Vidu4D: Single Generated Video to High-Fidelity 4D Reconstruction with Dynamic Gaussian Surfels

arxiv url: http://arxiv.org/abs/2405.16822v1
Date: Mon, 27 May 2024 04:43:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-28 17:00:31.515489
Title: Vidu4D: Single Generated Video to High-Fidelity 4D Reconstruction with Dynamic Gaussian Surfels
Title（参考訳）: Vidu4D:ダイナミックガウスサーフェスを用いた高忠実度4D再構成
Authors: Yikai Wang, Xinzhou Wang, Zilong Chen, Zhengyi Wang, Fuchun Sun, Jun Zhu,
Abstract要約: 単一生成ビデオから4D表現を正確に再構成する新しい再構成モデルVidu4Dを提案する。 Vidu4Dのコアとなるのは、提案した動的ガウスサーフェス(DGS)技術である。
参考スコア（独自算出の注目度）: 35.27805034331218
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video generative models are receiving particular attention given their ability to generate realistic and imaginative frames. Besides, these models are also observed to exhibit strong 3D consistency, significantly enhancing their potential to act as world simulators. In this work, we present Vidu4D, a novel reconstruction model that excels in accurately reconstructing 4D (i.e., sequential 3D) representations from single generated videos, addressing challenges associated with non-rigidity and frame distortion. This capability is pivotal for creating high-fidelity virtual contents that maintain both spatial and temporal coherence. At the core of Vidu4D is our proposed Dynamic Gaussian Surfels (DGS) technique. DGS optimizes time-varying warping functions to transform Gaussian surfels (surface elements) from a static state to a dynamically warped state. This transformation enables a precise depiction of motion and deformation over time. To preserve the structural integrity of surface-aligned Gaussian surfels, we design the warped-state geometric regularization based on continuous warping fields for estimating normals. Additionally, we learn refinements on rotation and scaling parameters of Gaussian surfels, which greatly alleviates texture flickering during the warping process and enhances the capture of fine-grained appearance details. Vidu4D also contains a novel initialization state that provides a proper start for the warping fields in DGS. Equipping Vidu4D with an existing video generative model, the overall framework demonstrates high-fidelity text-to-4D generation in both appearance and geometry.
Abstract（参考訳）: ビデオ生成モデルは、現実的で想像力のあるフレームを生成する能力から、特に注目を集めている。さらに、これらのモデルは強力な3D整合性を示し、世界シミュレーターとして機能する可能性を著しく高めている。本研究では,1つのビデオから4D(シーケンシャルな3D)表現を正確に再構成し,非剛性とフレーム歪みに関連する課題に対処する新しい再構成モデルVidu4Dを提案する。この能力は、空間的コヒーレンスと時間的コヒーレンスの両方を維持する高忠実度仮想コンテンツを作成するために重要である。 Vidu4Dのコアとなるのは、提案した動的ガウスサーフェス(DGS)技術である。 DGSは時変ワープ関数を最適化し、ガウスのサーフ(表面要素)を静的状態から動的にワープ状態に変換する。この変換は、時間とともに動きと変形の正確な描写を可能にする。表面配向ガウス波の構造的整合性を維持するため,正規度を推定するための連続なワープ場に基づく乱状態幾何正則化を設計する。さらに,ガウス波の回転・スケーリングパラメータを改良し,ゆらぎ過程におけるテクスチャ・フレッカリングを大幅に軽減し,きめ細かな外観の詳細の捕捉を促進させる。 Vidu4Dはまた、DGSのワープフィールドの適切な開始を提供する新しい初期化状態を含んでいる。 Vidu4Dを既存のビデオ生成モデルで取得すると、全体的なフレームワークは外観と幾何学の両方において高忠実なテキストから4D生成を示す。

関連論文リスト

Video4DGen: Enhancing Video and 4D Generation through Mutual Optimization [31.956858341885436]
Video4DGenは、単一または複数の生成されたビデオから4D表現を生成するのに優れている新しいフレームワークである。 Video4DGenは、仮想現実、アニメーションなどにおけるアプリケーションのための強力なツールを提供する。
論文参考訳（メタデータ） (2025-04-05T12:13:05Z)
Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文参考訳（メタデータ） (2025-03-26T17:59:44Z)
4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [116.2042238179433]
本稿では,動的シーンを非拘束な4次元ボリューム学習問題とみなす。本研究では,4次元ガウス原始体の集合を対象とした動的シーンを明示的な幾何学的特徴と外観的特徴で表現する。このアプローチは、下層のフォトリアリスティック時間体積を適合させることで、空間と時間の関連情報をキャプチャすることができる。特に、我々の4DGSモデルは、複雑なダイナミックシーンのための、高解像度で斬新なビューのリアルタイムレンダリングをサポートする最初のソリューションです。
論文参考訳（メタデータ） (2024-12-30T05:30:26Z)
DynaSurfGS: Dynamic Surface Reconstruction with Planar-based Gaussian Splatting [13.762831851385227]
本研究では,動的シナリオのフォトリアリスティックレンダリングと高忠実な表面再構成を実現するためにDynaSurfGSを提案する。このフレームワークはまず、4Dニューラルボクセルのガウスの特徴をプラナーベースのガウススプラッティングに組み込んで、表面の正確な再構築を容易にする。また、ARAP(as-rigid-as-possible)制約を組み込んで、時間ステップ間の3Dガウシアン地区の局所的な剛性を維持する。
論文参考訳（メタデータ） (2024-08-26T01:36:46Z)
S4D: Streaming 4D Real-World Reconstruction with Gaussians and 3D Control Points [30.46796069720543]
本稿では,離散的な3次元制御点を用いた4次元実世界の再構成をストリーミングする手法を提案する。この方法は局所光を物理的にモデル化し、運動デカップリング座標系を確立する。従来のグラフィックスと学習可能なパイプラインを効果的にマージすることにより、堅牢で効率的なローカルな6自由度(6自由度)モーション表現を提供する。
論文参考訳（メタデータ） (2024-08-23T12:51:49Z)
Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文参考訳（メタデータ） (2024-05-26T17:47:34Z)
SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。我々の手法は、品質と効率の両面で既存の手法を超越している。動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文参考訳（メタデータ） (2024-04-04T18:05:18Z)
TC4D: Trajectory-Conditioned Text-to-4D Generation [94.90700997568158]
提案するTC4D: trajectory-conditioned text-to-4D 生成は,グローバルおよびローカルなコンポーネントへの移動を要因とする。我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,および生成した動きのリアリズムと量に対する大幅な改善を可能にする。
論文参考訳（メタデータ） (2024-03-26T17:55:11Z)
4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文参考訳（メタデータ） (2023-12-28T18:53:39Z)
DreamGaussian4D: Generative 4D Gaussian Splatting [56.49043443452339]
DG4D(DreamGaussian 4D:DreamGaussian 4D)はGaussian Splatting(GS)をベースとした効率的な4D生成フレームワークである。我々の重要な洞察は、空間変換の明示的なモデリングと静的GSを組み合わせることで、4次元生成の効率的かつ強力な表現ができるということである。ビデオ生成手法は、高画質の4D生成を向上し、価値ある時空間前兆を提供する可能性がある。
論文参考訳（メタデータ） (2023-12-28T17:16:44Z)
Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。 4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文参考訳（メタデータ） (2023-12-21T11:41:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。