論文の概要: EVolSplat4D: Efficient Volume-based Gaussian Splatting for 4D Urban Scene Synthesis
- arxiv url: http://arxiv.org/abs/2601.15951v1
- Date: Thu, 22 Jan 2026 13:39:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.611265
- Title: EVolSplat4D: Efficient Volume-based Gaussian Splatting for 4D Urban Scene Synthesis
- Title(参考訳): EVolSplat4D:4次元都市シーン合成のための効率的なボリュームベースガウススプラッティング
- Authors: Sheng Miao, Sijin Li, Pan Wang, Dongfeng Bai, Bingbing Liu, Yue Wang, Andreas Geiger, Yiyi Liao,
- Abstract要約: EvolSplat4Dは、ボリュームベースとピクセルベースのガウス予測を統合することで、既存のピクセル単位のパラダイムを超えたフィードフォワードフレームワークである。
EvolSplat4Dは静的環境と動的環境の両方を高い精度と一貫性で再構成し、シーンごとの最適化と最先端のフィードフォワードベースラインの両方に優れることを示す。
- 参考スコア(独自算出の注目度): 43.898895514609286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Novel view synthesis (NVS) of static and dynamic urban scenes is essential for autonomous driving simulation, yet existing methods often struggle to balance reconstruction time with quality. While state-of-the-art neural radiance fields and 3D Gaussian Splatting approaches achieve photorealism, they often rely on time-consuming per-scene optimization. Conversely, emerging feed-forward methods frequently adopt per-pixel Gaussian representations, which lead to 3D inconsistencies when aggregating multi-view predictions in complex, dynamic environments. We propose EvolSplat4D, a feed-forward framework that moves beyond existing per-pixel paradigms by unifying volume-based and pixel-based Gaussian prediction across three specialized branches. For close-range static regions, we predict consistent geometry of 3D Gaussians over multiple frames directly from a 3D feature volume, complemented by a semantically-enhanced image-based rendering module for predicting their appearance. For dynamic actors, we utilize object-centric canonical spaces and a motion-adjusted rendering module to aggregate temporal features, ensuring stable 4D reconstruction despite noisy motion priors. Far-Field scenery is handled by an efficient per-pixel Gaussian branch to ensure full-scene coverage. Experimental results on the KITTI-360, KITTI, Waymo, and PandaSet datasets show that EvolSplat4D reconstructs both static and dynamic environments with superior accuracy and consistency, outperforming both per-scene optimization and state-of-the-art feed-forward baselines.
- Abstract(参考訳): 静的および動的都市景観の新たなビュー合成(NVS)は、自律運転シミュレーションに不可欠であるが、既存の手法では、再現時間と品質のバランスをとるのに苦労することが多い。
最先端の神経放射場と3Dガウススプラッティングアプローチはフォトリアリズムを実現するが、それらはしばしばシーンごとの時間的最適化に依存している。
逆に、新しいフィードフォワード法はピクセルごとのガウス表現を頻繁に採用し、複雑な動的環境において多視点予測を集約する際に3Dの不整合をもたらす。
EvolSplat4Dは,3つの専門分野にまたがるボリュームベースおよび画素ベースのガウス予測を統合することで,既存の画素単位のパラダイムを超越したフィードフォワードフレームワークである。
近接領域の静的領域に対しては、3次元特徴量から直接複数のフレーム上の3次元ガウス線の一貫した幾何を予測し、その外観を予測するためのセマンティック・エンハンスド・イメージベースのレンダリング・モジュールで補完する。
動的アクターに対しては、物体中心の標準空間と動き調整レンダリングモジュールを用いて時間的特徴を集約し、ノイズの多い動きの先行にもかかわらず安定した4次元再構成を確保する。
Far-Fieldのシーンは、全シーンのカバレッジを確保するために、効率の良いピクセルごとのガウスブランチによって処理される。
KITTI-360、KITTI、Waymo、PandaSetのデータセットによる実験結果から、EvolSplat4Dは静的環境と動的環境の両方を、精度と一貫性で再構築し、シーンごとの最適化と最先端のフィードフォワードベースラインの両方を上回る結果を得た。
関連論文リスト
- 4D3R: Motion-Aware Neural Reconstruction and Rendering of Dynamic Scenes from Monocular Videos [52.89084603734664]
静的および動的コンポーネントを2段階のアプローチで分離する,ポーズフリーな動的ニューラルネットワークレンダリングフレームワークである4D3Rを提案する。
提案手法は最先端手法よりも最大1.8dBPSNRの改善を実現する。
論文 参考訳(メタデータ) (2025-11-07T13:25:50Z) - EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - CoDa-4DGS: Dynamic Gaussian Splatting with Context and Deformation Awareness for Autonomous Driving [12.006435326659526]
ダイナミックなシーンレンダリングを改善するために,新しい4次元ガウススプラッティング(4DGS)手法を提案する。
具体的には,2次元セマンティックセグメンテーション基盤モデルを用いて,ガウスの4次元セマンティック特徴を自己監督する。
意味的変形特徴と時間的変形特徴の両方を集約して符号化することにより、各ガウスは潜在的な変形補償のための手がかりを備える。
論文 参考訳(メタデータ) (2025-03-09T19:58:51Z) - 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [115.67081491747943]
動的3Dシーン表現と新しいビュー合成はAR/VRおよびメタバースアプリケーションの実現に不可欠である。
我々は,その基礎となる4次元体積を近似として,時間変化の異なる3次元シーンの再構成を再構成する。
ストレージのボトルネックに対処するため、メモリフットプリントを効果的に削減するいくつかのコンパクトなバリエーションを導出する。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - UrbanGS: Semantic-Guided Gaussian Splatting for Urban Scene Reconstruction [86.4386398262018]
UrbanGSは2Dセマンティックマップと既存の動的ガウスアプローチを使って静的オブジェクトとシーンを区別する。
動的オブジェクトに対して、学習可能な時間埋め込みを用いて時間情報を集約する。
提案手法は, 修復の質と効率性において, 最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-12-04T16:59:49Z) - 4D-Rotor Gaussian Splatting: Towards Efficient Novel View Synthesis for Dynamic Scenes [33.14021987166436]
異方性 4D XYZT Gaussian を用いた動的シーンの表現法である 4DRotorGS を紹介する。
4DRotorGSは空間的時間的表現として、複雑な力学と細部をモデル化する強力な能力を示している。
さらに、3090 GPUで最大277FPS、4090 GPUで最大583FPSのリアルタイムレンダリング速度を達成するために、時間スライシングとアクセラレーションのフレームワークを実装しています。
論文 参考訳(メタデータ) (2024-02-05T18:59:04Z) - Real-time Photorealistic Dynamic Scene Representation and Rendering with
4D Gaussian Splatting [8.078460597825142]
2次元画像から動的3Dシーンを再構成し、時間とともに多様なビューを生成することは、シーンの複雑さと時間的ダイナミクスのために困難である。
本研究では、4次元プリミティブの集合を明示的な幾何学と外観モデルを用いて最適化することにより、動的シーンの基本的な時間的レンダリング量を近似することを提案する。
我々のモデルは概念的に単純であり、異方性楕円によってパラメータ化され、空間と時間で任意に回転する4次元ガウスのパラメータと、4次元球面調和係数で表されるビュー依存および時間進化の外観から構成される。
論文 参考訳(メタデータ) (2023-10-16T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。