論文の概要: 4DNeX: Feed-Forward 4D Generative Modeling Made Easy
- arxiv url: http://arxiv.org/abs/2508.13154v1
- Date: Mon, 18 Aug 2025 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.528535
- Title: 4DNeX: Feed-Forward 4D Generative Modeling Made Easy
- Title(参考訳): 4DNeX:フィードフォワード4D生成モデリングを簡単に
- Authors: Zhaoxi Chen, Tianqi Liu, Long Zhuo, Jiawei Ren, Zeng Tao, He Zhu, Fangzhou Hong, Liang Pan, Ziwei Liu,
- Abstract要約: 1つの画像から4D(動的3D)シーン表現を生成するための最初のフィードフォワードフレームワークである4DNeXを提案する。
計算集約的な最適化やマルチフレームビデオ入力を必要とする既存の方法とは対照的に、4DNeXは効率的でエンドツーエンドの画像から4D生成を可能にする。
- 参考スコア(独自算出の注目度): 51.79072580042173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present 4DNeX, the first feed-forward framework for generating 4D (i.e., dynamic 3D) scene representations from a single image. In contrast to existing methods that rely on computationally intensive optimization or require multi-frame video inputs, 4DNeX enables efficient, end-to-end image-to-4D generation by fine-tuning a pretrained video diffusion model. Specifically, 1) to alleviate the scarcity of 4D data, we construct 4DNeX-10M, a large-scale dataset with high-quality 4D annotations generated using advanced reconstruction approaches. 2) we introduce a unified 6D video representation that jointly models RGB and XYZ sequences, facilitating structured learning of both appearance and geometry. 3) we propose a set of simple yet effective adaptation strategies to repurpose pretrained video diffusion models for 4D modeling. 4DNeX produces high-quality dynamic point clouds that enable novel-view video synthesis. Extensive experiments demonstrate that 4DNeX outperforms existing 4D generation methods in efficiency and generalizability, offering a scalable solution for image-to-4D modeling and laying the foundation for generative 4D world models that simulate dynamic scene evolution.
- Abstract(参考訳): 1つの画像から4D(動的3D)シーン表現を生成するための最初のフィードフォワードフレームワークである4DNeXを提案する。
計算集約的な最適化やマルチフレームビデオ入力を必要とする既存の手法とは対照的に、4DNeXは事前訓練されたビデオ拡散モデルを微調整することで、効率的なエンドツーエンドの画像生成を可能にする。
具体的には
1) 4Dデータの不足を軽減するため, 高精度な4Dアノテーションを用いた大規模データセットである 4DNeX-10M を構築した。
2)RGBシーケンスとXYZシーケンスを共同でモデル化し,外観と幾何学の両方の構造化学習を容易にする,統合された6Dビデオ表現を導入する。
3) 4次元モデリングのための事前学習ビデオ拡散モデルの再利用を目的とした,単純かつ効果的な適応手法を提案する。
4DNeXは、新しいビュービデオ合成を可能にする高品質なダイナミックポイント雲を生成する。
4DNeXは、画像から4Dへのモデリングのためのスケーラブルなソリューションを提供し、動的シーンの進化をシミュレートする4Dワールドモデルの基盤を提供する。
関連論文リスト
- Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - Diffusion$^2$: Dynamic 3D Content Generation via Score Composition of Video and Multi-view Diffusion Models [6.738732514502613]
Diffusion$2$は動的3Dコンテンツ作成のための新しいフレームワークである。
3次元モデルからの幾何的一貫性と時間的滑らかさに関する知識を精査し、密集した多視点画像を直接サンプリングする。
非常にシームレスで一貫した4Dアセットを生成する上で,提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-02T17:58:03Z) - DreamGaussian4D: Generative 4D Gaussian Splatting [56.49043443452339]
DG4D(DreamGaussian 4D:DreamGaussian 4D)はGaussian Splatting(GS)をベースとした効率的な4D生成フレームワークである。
我々の重要な洞察は、空間変換の明示的なモデリングと静的GSを組み合わせることで、4次元生成の効率的かつ強力な表現ができるということである。
ビデオ生成手法は、高画質の4D生成を向上し、価値ある時空間前兆を提供する可能性がある。
論文 参考訳(メタデータ) (2023-12-28T17:16:44Z) - A Unified Approach for Text- and Image-guided 4D Scene Generation [58.658768832653834]
本研究では,テキストから4Dへの新たな2段階合成手法であるDream-in-4Dを提案する。
提案手法は,画像の画質,3次元整合性,テキスト・ツー・4次元生成におけるテキストの忠実度を著しく向上することを示す。
本手法は,テキストから4D,画像から4D,パーソナライズされた4D生成タスクに対して,初めて統一されたアプローチを提供する。
論文 参考訳(メタデータ) (2023-11-28T15:03:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。