論文の概要: VGD: Visual Geometry Gaussian Splatting for Feed-Forward Surround-view Driving Reconstruction
- arxiv url: http://arxiv.org/abs/2510.19578v1
- Date: Wed, 22 Oct 2025 13:28:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.82867
- Title: VGD: Visual Geometry Gaussian Splatting for Feed-Forward Surround-view Driving Reconstruction
- Title(参考訳): VGD: フィードフォワード・サラウンド・ドライビング・コンストラクションのための視覚幾何学的ガウス・スプレイティング
- Authors: Junhong Lin, Kangli Wang, Shunzhou Wang, Songlin Fan, Ge Li, Wei Gao,
- Abstract要約: 我々は,この課題に対処すべく,新しいフィードフォワードエンドツーエンド学習フレームワークであるtextbfVisual Gaussian Driving (VGD)を紹介した。
提案手法は, 客観的指標と主観的品質の両方において, 種々の条件下で, 最先端の手法を著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 26.668204454537246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feed-forward surround-view autonomous driving scene reconstruction offers fast, generalizable inference ability, which faces the core challenge of ensuring generalization while elevating novel view quality. Due to the surround-view with minimal overlap regions, existing methods typically fail to ensure geometric consistency and reconstruction quality for novel views. To tackle this tension, we claim that geometric information must be learned explicitly, and the resulting features should be leveraged to guide the elevating of semantic quality in novel views. In this paper, we introduce \textbf{Visual Gaussian Driving (VGD)}, a novel feed-forward end-to-end learning framework designed to address this challenge. To achieve generalizable geometric estimation, we design a lightweight variant of the VGGT architecture to efficiently distill its geometric priors from the pre-trained VGGT to the geometry branch. Furthermore, we design a Gaussian Head that fuses multi-scale geometry tokens to predict Gaussian parameters for novel view rendering, which shares the same patch backbone as the geometry branch. Finally, we integrate multi-scale features from both geometry and Gaussian head branches to jointly supervise a semantic refinement model, optimizing rendering quality through feature-consistent learning. Experiments on nuScenes demonstrate that our approach significantly outperforms state-of-the-art methods in both objective metrics and subjective quality under various settings, which validates VGD's scalability and high-fidelity surround-view reconstruction.
- Abstract(参考訳): フィードフォワード・サラウンドビュー 自律走行シーンの再構築は、高速で一般化可能な推論能力を提供する。
最小の重複領域を持つサラウンドビューのため、既存の手法は通常、新しいビューの幾何的一貫性と復元品質を確保するのに失敗する。
この緊張に対処するためには、幾何学的情報を明示的に学習し、結果として得られる特徴を活用して、新規な視点における意味的品質の上昇を導く必要がある。
本稿では,この課題に対処すべく,新しいフィードフォワードエンドツーエンド学習フレームワークである‘textbf{Visual Gaussian Driving(VGD)’を紹介する。
一般化可能な幾何推定を実現するため,VGGTアーキテクチャの軽量な変種を設計し,事前学習したVGGTから幾何分岐への幾何先行量を効率的に抽出する。
さらに,複数スケールの幾何トークンを融合したガウスヘッドを設計し,新しいビューレンダリングのためのガウスパラメータを予測する。
最後に,幾何学系とガウス系の両方のヘッドブランチのマルチスケール機能を統合し,セマンティックリファインメントモデルを共同で監督し,特徴一貫性学習によるレンダリング品質の最適化を行う。
nuScenesの実験では,VGDのスケーラビリティと高忠実度サラウンドビューの再構築を検証し,客観的な計測値と主観的品質の両方で最先端の手法を著しく上回っていることが示された。
関連論文リスト
- VA-GS: Enhancing the Geometric Representation of Gaussian Splatting via View Alignment [48.147381011235446]
3D Gaussian Splattingは、リアルタイムな新規ビュー合成のための効率的なソリューションとして最近登場した。
ビューアライメントによる3次元ガウス多様体の幾何学的表現を強化する新しい手法を提案する。
本手法は, 表面再構成と新しいビュー合成の両面において, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-10-13T14:44:50Z) - Proximal Vision Transformer: Enhancing Feature Representation through Two-Stage Manifold Geometry [7.3623134099785155]
ビジョントランスフォーマー(ViT)はコンピュータビジョンにおいて広く認知され、その自己認識機構を活用して様々なタスクで顕著な成功を収めている。
本稿では,近位ツールとViTを統合した新しいフレームワークを提案し,統一的な幾何最適化手法を提案する。
実験結果から,提案手法は分類精度とデータ分布の点で従来のViTよりも優れていたことが確認された。
論文 参考訳(メタデータ) (2025-08-23T16:39:09Z) - GTR: Gaussian Splatting Tracking and Reconstruction of Unknown Objects Based on Appearance and Geometric Complexity [49.31257173003408]
モノクローナルRGBDビデオからの6-DoFオブジェクト追跡と高品質な3D再構成のための新しい手法を提案する。
提案手法は, 高忠実度オブジェクトメッシュを復元する強力な能力を示し, オープンワールド環境における単一センサ3D再構成のための新しい標準を策定する。
論文 参考訳(メタデータ) (2025-05-17T08:46:29Z) - Dora: Sampling and Benchmarking for 3D Shape Variational Auto-Encoders [87.17440422575721]
Dora-VAEは,提案したシャープエッジサンプリング戦略と2つのクロスアテンション機構により,VAEの再構築を促進する新しいアプローチである。
Dora-VAEは最先端の高密度XCube-VAEに匹敵する再現性を実現し、少なくとも8$times$小さめの遅延空間を必要とする。
論文 参考訳(メタデータ) (2024-12-23T18:59:06Z) - NeuSurf: On-Surface Priors for Neural Surface Reconstruction from Sparse
Input Views [41.03837477483364]
本研究では,表面の高度に忠実な再構成を実現するために,地上の事前情報を活用する新しいスパース・ビュー・リコンストラクション・フレームワークを提案する。
具体的には,大域的幾何アライメントと局所的幾何洗練に関するいくつかの制約を設計し,粗い形状と細部を協調的に最適化する。
DTUとBlendedMVSデータセットによる2つの一般的なスパース設定の実験結果は、最先端の手法よりも大幅に改善されたことを示している。
論文 参考訳(メタデータ) (2023-12-21T16:04:45Z) - DARF: Depth-Aware Generalizable Neural Radiance Field [51.29437249009986]
本稿では,Depth-Aware Dynamic Smpling(DADS)戦略を用いたDARF(Depth-Aware Generalizable Neural Radiance Field)を提案する。
筆者らのフレームワークは,数枚の入力画像で,画素レベルと幾何学レベルの両方の見えないシーンを推測する。
DARFは、最先端の一般化可能なNeRF法と比較して、レンダリング品質と深さ推定を改善しつつ、サンプルを50%削減する。
論文 参考訳(メタデータ) (2022-12-05T14:00:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。