論文の概要: MVG4D: Image Matrix-Based Multi-View and Motion Generation for 4D Content Creation from a Single Image
- arxiv url: http://arxiv.org/abs/2507.18371v2
- Date: Thu, 31 Jul 2025 11:48:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 13:02:07.66245
- Title: MVG4D: Image Matrix-Based Multi-View and Motion Generation for 4D Content Creation from a Single Image
- Title(参考訳): MVG4D:画像行列に基づく4次元コンテンツ作成のためのマルチビューとモーション生成
- Authors: DongFu Yin, Xiaotian Chen, Fei Richard Yu, Xuanchen Li, Xinhao Zhang,
- Abstract要約: 静止画像から動的4Dコンテンツを生成する新しいフレームワークであるMVG4Dを提案する。
MVG4Dのコアとなるのは、時間的コヒーレントで空間的に多様なマルチビュー画像を合成するイメージマトリックスモジュールである。
本手法は, 時間的一貫性, 幾何学的忠実度, 視覚的リアリズムを効果的に向上させ, 動きの不連続性や背景劣化における重要な課題に対処する。
- 参考スコア(独自算出の注目度): 8.22464804794448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in generative modeling have significantly enhanced digital content creation, extending from 2D images to complex 3D and 4D scenes. Despite substantial progress, producing high-fidelity and temporally consistent dynamic 4D content remains a challenge. In this paper, we propose MVG4D, a novel framework that generates dynamic 4D content from a single still image by combining multi-view synthesis with 4D Gaussian Splatting (4D GS). At its core, MVG4D employs an image matrix module that synthesizes temporally coherent and spatially diverse multi-view images, providing rich supervisory signals for downstream 3D and 4D reconstruction. These multi-view images are used to optimize a 3D Gaussian point cloud, which is further extended into the temporal domain via a lightweight deformation network. Our method effectively enhances temporal consistency, geometric fidelity, and visual realism, addressing key challenges in motion discontinuity and background degradation that affect prior 4D GS-based methods. Extensive experiments on the Objaverse dataset demonstrate that MVG4D outperforms state-of-the-art baselines in CLIP-I, PSNR, FVD, and time efficiency. Notably, it reduces flickering artifacts and sharpens structural details across views and time, enabling more immersive AR/VR experiences. MVG4D sets a new direction for efficient and controllable 4D generation from minimal inputs.
- Abstract(参考訳): 生成モデリングの進歩は、2D画像から複雑な3Dおよび4Dシーンまで、デジタルコンテンツ作成を大幅に強化した。
かなりの進歩にもかかわらず、高忠実で時間的に一貫した動的4Dコンテンツを生み出すことは依然として課題である。
本稿では,1枚の静止画から動的4Dコンテンツを生成する新しいフレームワークであるMVG4Dを提案する。
中心となるMVG4Dは、時間的コヒーレントで空間的に多様なマルチビュー画像を合成し、下流3Dと4D再構成のための豊富な監視信号を提供するイメージマトリックスモジュールを使用している。
これらのマルチビュー画像は、3次元ガウス点雲を最適化するために使用され、これは軽量な変形ネットワークを介して時間領域にさらに拡張される。
本手法は時間的一貫性,幾何学的忠実度,視覚的リアリズムを効果的に向上させ,従来の4次元GS法に影響を及ぼす動きの不連続性や背景劣化の鍵となる課題に対処する。
Objaverseデータセットの大規模な実験により、MVG4DはCLIP-I、PSNR、FVD、時間効率において最先端のベースラインを上回っていることが示された。
注目すべきなのは、ファッケングするアーティファクトを減らし、ビューや時間にまたがる構造的詳細を絞り込み、より没入的なAR/VR体験を可能にすることだ。
MVG4Dは、最小限の入力から効率よく制御可能な4D生成のための新しい方向を設定する。
関連論文リスト
- Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - DreamGaussian4D: Generative 4D Gaussian Splatting [56.49043443452339]
DG4D(DreamGaussian 4D:DreamGaussian 4D)はGaussian Splatting(GS)をベースとした効率的な4D生成フレームワークである。
我々の重要な洞察は、空間変換の明示的なモデリングと静的GSを組み合わせることで、4次元生成の効率的かつ強力な表現ができるということである。
ビデオ生成手法は、高画質の4D生成を向上し、価値ある時空間前兆を提供する可能性がある。
論文 参考訳(メタデータ) (2023-12-28T17:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。