論文の概要: UniSplat: Unified Spatio-Temporal Fusion via 3D Latent Scaffolds for Dynamic Driving Scene Reconstruction
- arxiv url: http://arxiv.org/abs/2511.04595v1
- Date: Thu, 06 Nov 2025 17:49:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.543178
- Title: UniSplat: Unified Spatio-Temporal Fusion via 3D Latent Scaffolds for Dynamic Driving Scene Reconstruction
- Title(参考訳): UniSplat:動的運転シーン再構築のための3Dラテントスキャフォールドによる統合時空間固定
- Authors: Chen Shi, Shaoshuai Shi, Xiaoyang Lyu, Chunyang Liu, Kehua Sheng, Bo Zhang, Li Jiang,
- Abstract要約: We present UniSplat, a feed-forward framework that learns robust dynamic scene reconstruction through unified latent-temporal fusion。
実世界のデータセットの実験では、UniSplatが新しい視点で最先端の合成を実現し、オリジナルカメラのカバレッジ外の視点に対して堅牢で高品質なレンダリングを提供することを示した。
- 参考スコア(独自算出の注目度): 26.278318116942526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feed-forward 3D reconstruction for autonomous driving has advanced rapidly, yet existing methods struggle with the joint challenges of sparse, non-overlapping camera views and complex scene dynamics. We present UniSplat, a general feed-forward framework that learns robust dynamic scene reconstruction through unified latent spatio-temporal fusion. UniSplat constructs a 3D latent scaffold, a structured representation that captures geometric and semantic scene context by leveraging pretrained foundation models. To effectively integrate information across spatial views and temporal frames, we introduce an efficient fusion mechanism that operates directly within the 3D scaffold, enabling consistent spatio-temporal alignment. To ensure complete and detailed reconstructions, we design a dual-branch decoder that generates dynamic-aware Gaussians from the fused scaffold by combining point-anchored refinement with voxel-based generation, and maintain a persistent memory of static Gaussians to enable streaming scene completion beyond current camera coverage. Extensive experiments on real-world datasets demonstrate that UniSplat achieves state-of-the-art performance in novel view synthesis, while providing robust and high-quality renderings even for viewpoints outside the original camera coverage.
- Abstract(参考訳): 自動走行のためのフィードフォワード3D再構成は急速に進歩しているが、既存の手法は、スパース、非オーバーラップカメラビュー、複雑なシーンダイナミクスといった共同課題に苦慮している。
統合された潜時空間融合により動的シーンの堅牢な再構築を学習する汎用フィードフォワードフレームワークUniSplatを提案する。
UniSplatは、事前訓練された基礎モデルを活用することで、幾何学的および意味的なシーンコンテキストをキャプチャする構造化された表現である3D潜在足場を構築する。
空間ビューと時間フレーム間の情報を効果的に統合するために,3次元足場内で直接動作し,一貫した時空間アライメントを可能にする,効率的な融合機構を導入する。
完全かつ詳細な再構築を実現するために,2重分岐デコーダを設計し,点アンコールによる改良とボクセルベースの生成を組み合わせ,静止ガウスの永続記憶を保ち,現在のカメラ範囲を超えてストリーミングシーンの補完を可能にする。
実世界のデータセットに関する大規模な実験は、UniSplatが新しいビュー合成において最先端のパフォーマンスを達成し、オリジナルのカメラカバレッジの外の視点でも堅牢で高品質なレンダリングを提供することを示した。
関連論文リスト
- OnlineSplatter: Pose-Free Online 3D Reconstruction for Free-Moving Objects [58.38338242973447]
OnlineSplatterは、RGBフレームから直接高品質でオブジェクト中心の3Dガウシアンを生成する新しいフレームワークである。
提案手法は,第1フレームを用いて再構成をアンカーし,高密度ガウス原始体を通して対象表現を漸進的に洗練する。
我々のコアコントリビューションは、潜伏した外見幾何学キーと明示的な方向キーを組み合わせたデュアルキーメモリモジュールです。
論文 参考訳(メタデータ) (2025-10-23T14:37:25Z) - DrivingScene: A Multi-Task Online Feed-Forward 3D Gaussian Splatting Method for Dynamic Driving Scenes [11.532584276783105]
本研究では、2つの連続したサラウンドビュー画像から4次元動的シーンを再構成するオンラインフレームワークであるDrivingSceneを提案する。
私たちの重要なイノベーションは、カメラごとの動的オブジェクトの非剛性動作を予測する軽量な残留フローネットワークです。
論文 参考訳(メタデータ) (2025-10-14T03:32:46Z) - STDR: Spatio-Temporal Decoupling for Real-Time Dynamic Scene Rendering [15.873329633980015]
既存の3DGSに基づく動的再構成法は、しばしばtextbfSTDR(リアルタイムレンダリングのための空間結合デテンポラル)に悩まされる
実時間レンダリングのためのテキストbfSTDR (Spatio-coupling DeTemporal for Real-time rendering) を提案する。
論文 参考訳(メタデータ) (2025-05-28T14:26:41Z) - SHaDe: Compact and Consistent Dynamic 3D Reconstruction via Tri-Plane Deformation and Latent Diffusion [0.0]
本稿では3つの重要な要素を統合した動的3次元シーン再構成のための新しいフレームワークを提案する。
明示的な三面変形場、球面調和(SH)注目の視野条件付き正準場、時間的に認識される潜在拡散。
提案手法は,時間とともに進化する3つの2次元特徴面を用いて4次元シーンを符号化し,効率的なコンパクト表現を実現する。
論文 参考訳(メタデータ) (2025-05-22T11:25:38Z) - SpatialCrafter: Unleashing the Imagination of Video Diffusion Models for Scene Reconstruction from Limited Observations [44.53106180688135]
この作業は、スパースやシングルビューのインプットから3Dシーンを再構築する上での課題である。
SpatialCrafterは,ビデオ拡散モデルにおける豊富な知識を活用して,可算的な追加観測を生成するフレームワークである。
トレーニング可能なカメラエンコーダと、明示的な幾何学的制約に対するエピポーラアテンション機構により、精密なカメラ制御と3D整合性を実現する。
論文 参考訳(メタデータ) (2025-05-17T13:05:13Z) - BloomScene: Lightweight Structured 3D Gaussian Splatting for Crossmodal Scene Generation [54.12899218104669]
3Dシーンは非常に複雑な構造を持ち、出力が密度が高く、一貫性があり、必要な全ての構造を含むことを保証する必要がある。
現在の3Dシーン生成法は、事前訓練されたテキスト・画像拡散モデルと単眼深度推定器に依存している。
クロスモーダルシーン生成のための軽量な3次元ガウススプラッティングであるBloomSceneを提案する。
論文 参考訳(メタデータ) (2025-01-15T11:33:34Z) - T-3DGS: Removing Transient Objects for 3D Scene Reconstruction [83.05271859398779]
映像シーケンスにおける過渡的オブジェクトは、3Dシーン再構成の品質を著しく低下させる可能性がある。
我々は,ガウススプラッティングを用いた3次元再構成において,過渡的障害を頑健に除去する新しいフレームワークT-3DGSを提案する。
論文 参考訳(メタデータ) (2024-11-29T07:45:24Z) - Focus on Neighbors and Know the Whole: Towards Consistent Dense Multiview Text-to-Image Generator for 3D Creation [64.07560335451723]
CoSERは、テキストから3Dへの一貫した高密度テキスト・ツー・イメージ・ジェネレータである。
隣人のビューコヒーレンスを巧みに学習することで効率と品質を両立させる。
物理原理によって明確に定義された運動経路に沿って情報を集約し、詳細を洗練させる。
論文 参考訳(メタデータ) (2024-08-23T15:16:01Z) - DrivingGaussian: Composite Gaussian Splatting for Surrounding Dynamic Autonomous Driving Scenes [57.12439406121721]
我々は動的自律走行シーンを囲む効率的かつ効果的なフレームワークであるDrivingGaussianを提案する。
動くオブジェクトを持つ複雑なシーンでは、まずシーン全体の静的な背景を逐次、段階的にモデル化します。
次に、複合動的ガウスグラフを利用して、複数の移動物体を処理する。
我々はさらに、ガウススプラッティングに先立ってLiDARを使用して、より詳細でシーンを再構築し、パノラマ一貫性を維持する。
論文 参考訳(メタデータ) (2023-12-13T06:30:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。