論文の概要: Generative 4D Scene Gaussian Splatting with Object View-Synthesis Priors
- arxiv url: http://arxiv.org/abs/2506.12716v1
- Date: Sun, 15 Jun 2025 04:40:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.71672
- Title: Generative 4D Scene Gaussian Splatting with Object View-Synthesis Priors
- Title(参考訳): オブジェクト・ビュー・シンセシスを先行した4次元ガウス撮影
- Authors: Wen-Hsuan Chu, Lei Ke, Jianmeng Liu, Mingxiao Huo, Pavel Tokmakov, Katerina Fragkiadaki,
- Abstract要約: GenMOJOは、レンダリングベースで変形可能な3Dガウス最適化と生成前のビュー合成を統合する新しいアプローチである。
シーンを個々のオブジェクトに分解し、オブジェクトごとに変形可能なガウスの微分可能な集合を最適化する。
得られたモデルは、空間と時間の4Dオブジェクト再構成を生成し、モノラル入力から正確な2Dおよび3Dポイントトラックを生成する。
- 参考スコア(独自算出の注目度): 22.797709893040906
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We tackle the challenge of generating dynamic 4D scenes from monocular, multi-object videos with heavy occlusions, and introduce GenMOJO, a novel approach that integrates rendering-based deformable 3D Gaussian optimization with generative priors for view synthesis. While existing models perform well on novel view synthesis for isolated objects, they struggle to generalize to complex, cluttered scenes. To address this, GenMOJO decomposes the scene into individual objects, optimizing a differentiable set of deformable Gaussians per object. This object-wise decomposition allows leveraging object-centric diffusion models to infer unobserved regions in novel viewpoints. It performs joint Gaussian splatting to render the full scene, capturing cross-object occlusions, and enabling occlusion-aware supervision. To bridge the gap between object-centric priors and the global frame-centric coordinate system of videos, GenMOJO uses differentiable transformations that align generative and rendering constraints within a unified framework. The resulting model generates 4D object reconstructions over space and time, and produces accurate 2D and 3D point tracks from monocular input. Quantitative evaluations and perceptual human studies confirm that GenMOJO generates more realistic novel views of scenes and produces more accurate point tracks compared to existing approaches.
- Abstract(参考訳): 我々は,モノクロ・マルチオブジェクトビデオから重いオクルージョンを持つ動的4Dシーンを生成するという課題に取り組み,レンダリングベースで変形可能な3Dガウス最適化と生成前の先行情報を統合する新しいアプローチであるGenMOJOを導入する。
既存のモデルは、孤立したオブジェクトに対する新しいビュー合成においてうまく機能するが、それらは複雑で散らかったシーンに一般化するのに苦労する。
これを解決するため、GenMOJOはシーンを個々のオブジェクトに分解し、オブジェクトごとに変形可能なガウスの異なるセットを最適化する。
このオブジェクト指向分解は、新しい視点で観測されていない領域を推測するために、オブジェクト中心拡散モデルを活用することができる。
全シーンをレンダリングし、クロスオブジェクトのオクルージョンをキャプチャし、オクルージョンを意識した監視を可能にする。
GenMOJOは、オブジェクト中心の事前とビデオのグローバルなフレーム中心の座標システムとのギャップを埋めるために、生成制約とレンダリング制約を統一されたフレームワーク内で整合させる、微分可能な変換を使用する。
得られたモデルは、空間と時間の4Dオブジェクト再構成を生成し、モノラル入力から正確な2Dおよび3Dポイントトラックを生成する。
定量的評価と知覚人類学的研究により、GenMOJOはシーンのより現実的な新しいビューを生成し、既存のアプローチと比較してより正確なポイントトラックを生成することが確認された。
関連論文リスト
- HoliGS: Holistic Gaussian Splatting for Embodied View Synthesis [59.25751939710903]
本稿では,長い単眼RGBビデオのエンボディドビュー合成に対処する,変形可能なガウススプラッティングフレームワークを提案する。
提案手法は,非可逆ガウス散乱変形ネットワークを利用して大規模動的環境を正確に再構築する。
その結果、現実のシナリオにおけるEVSの実用的でスケーラブルなソリューションが浮かび上がっています。
論文 参考訳(メタデータ) (2025-06-24T03:54:40Z) - BulletGen: Improving 4D Reconstruction with Bullet-Time Generation [15.225127596594582]
BulletGenは、生成モデルを利用してエラーを訂正し、動的なシーン表現で行方不明情報を完成させるアプローチである。
提案手法は,静的および動的シーン成分と生成コンテンツをシームレスにブレンドし,新しいビュー合成と2D/3Dトラッキングの両タスクの最先端結果を実現する。
論文 参考訳(メタデータ) (2025-06-23T13:03:42Z) - CasaGPT: Cuboid Arrangement and Scene Assembly for Interior Design [35.11283253765395]
室内シーン合成のための新しい手法として,分解した立方体プリミティブをシーン内の3次元オブジェクトに配置する手法を提案する。
提案手法はCuboid Arrangement and Scene AssemblyのCasaGPTと呼ばれ, 自動回帰モデルを用いてキューブを逐次配置し, 物理的に可視なシーンを生成する。
論文 参考訳(メタデータ) (2025-04-28T04:35:04Z) - 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [115.67081491747943]
動的3Dシーン表現と新しいビュー合成はAR/VRおよびメタバースアプリケーションの実現に不可欠である。
我々は,その基礎となる4次元体積を近似として,時間変化の異なる3次元シーンの再構成を再構成する。
ストレージのボトルネックに対処するため、メモリフットプリントを効果的に削減するいくつかのコンパクトなバリエーションを導出する。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - HybridGS: Decoupling Transients and Statics with 2D and 3D Gaussian Splatting [47.67153284714988]
画像ごとの過渡的対象に対して2次元ガウスアンを用いて,ハイブリッドGSと呼ばれる新しいハイブリッド表現を提案する。
また、ロバストなトレーニングと高品質なビュー合成を実現するために、単純かつ効果的なマルチステージトレーニング戦略を提案する。
ベンチマークデータセットを用いた実験は、室内および屋外の両方のシーンにおいて、新しいビュー合成の最先端性能を示す。
論文 参考訳(メタデータ) (2024-12-05T03:20:35Z) - NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。
我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文 参考訳(メタデータ) (2024-11-25T07:57:17Z) - GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。
我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。
いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-11-18T08:18:44Z) - DreamMesh4D: Video-to-4D Generation with Sparse-Controlled Gaussian-Mesh Hybrid Representation [10.250715657201363]
本稿では,メッシュ表現と幾何スキン技術を組み合わせた新しいフレームワークDreamMesh4Dを紹介し,モノクロビデオから高品質な4Dオブジェクトを生成する。
我々の手法は現代のグラフィックパイプラインと互換性があり、3Dゲームや映画産業におけるその可能性を示している。
論文 参考訳(メタデータ) (2024-10-09T10:41:08Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。