論文の概要: VGD: Visual Geometry Gaussian Splatting for Feed-Forward Surround-view Driving Reconstruction
- arxiv url: http://arxiv.org/abs/2510.19578v1
- Date: Wed, 22 Oct 2025 13:28:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.82867
- Title: VGD: Visual Geometry Gaussian Splatting for Feed-Forward Surround-view Driving Reconstruction
- Title(参考訳): VGD: フィードフォワード・サラウンド・ドライビング・コンストラクションのための視覚幾何学的ガウス・スプレイティング
- Authors: Junhong Lin, Kangli Wang, Shunzhou Wang, Songlin Fan, Ge Li, Wei Gao,
- Abstract要約: 我々は,この課題に対処すべく,新しいフィードフォワードエンドツーエンド学習フレームワークであるtextbfVisual Gaussian Driving (VGD)を紹介した。
提案手法は, 客観的指標と主観的品質の両方において, 種々の条件下で, 最先端の手法を著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 26.668204454537246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feed-forward surround-view autonomous driving scene reconstruction offers fast, generalizable inference ability, which faces the core challenge of ensuring generalization while elevating novel view quality. Due to the surround-view with minimal overlap regions, existing methods typically fail to ensure geometric consistency and reconstruction quality for novel views. To tackle this tension, we claim that geometric information must be learned explicitly, and the resulting features should be leveraged to guide the elevating of semantic quality in novel views. In this paper, we introduce \textbf{Visual Gaussian Driving (VGD)}, a novel feed-forward end-to-end learning framework designed to address this challenge. To achieve generalizable geometric estimation, we design a lightweight variant of the VGGT architecture to efficiently distill its geometric priors from the pre-trained VGGT to the geometry branch. Furthermore, we design a Gaussian Head that fuses multi-scale geometry tokens to predict Gaussian parameters for novel view rendering, which shares the same patch backbone as the geometry branch. Finally, we integrate multi-scale features from both geometry and Gaussian head branches to jointly supervise a semantic refinement model, optimizing rendering quality through feature-consistent learning. Experiments on nuScenes demonstrate that our approach significantly outperforms state-of-the-art methods in both objective metrics and subjective quality under various settings, which validates VGD's scalability and high-fidelity surround-view reconstruction.
- Abstract(参考訳): フィードフォワード・サラウンドビュー 自律走行シーンの再構築は、高速で一般化可能な推論能力を提供する。
最小の重複領域を持つサラウンドビューのため、既存の手法は通常、新しいビューの幾何的一貫性と復元品質を確保するのに失敗する。
この緊張に対処するためには、幾何学的情報を明示的に学習し、結果として得られる特徴を活用して、新規な視点における意味的品質の上昇を導く必要がある。
本稿では,この課題に対処すべく,新しいフィードフォワードエンドツーエンド学習フレームワークである‘textbf{Visual Gaussian Driving(VGD)’を紹介する。
一般化可能な幾何推定を実現するため,VGGTアーキテクチャの軽量な変種を設計し,事前学習したVGGTから幾何分岐への幾何先行量を効率的に抽出する。
さらに,複数スケールの幾何トークンを融合したガウスヘッドを設計し,新しいビューレンダリングのためのガウスパラメータを予測する。
最後に,幾何学系とガウス系の両方のヘッドブランチのマルチスケール機能を統合し,セマンティックリファインメントモデルを共同で監督し,特徴一貫性学習によるレンダリング品質の最適化を行う。
nuScenesの実験では,VGDのスケーラビリティと高忠実度サラウンドビューの再構築を検証し,客観的な計測値と主観的品質の両方で最先端の手法を著しく上回っていることが示された。
関連論文リスト
- SparseSurf: Sparse-View 3D Gaussian Splatting for Surface Reconstruction [26.59203606048875]
高品質な新しいビューレンダリングを保ちながら、より正確で詳細な表面を再構築する手法であるnetを提案する。
我々の重要な洞察は、レンダリング品質と幾何推定を橋渡しするStereo Geometry-Texture Alignmentを導入することである。
さらに,多視点幾何整合性を実現するPseudo-Feature Enhanced Geometry Consistencyを提案する。
論文 参考訳(メタデータ) (2025-11-18T16:24:37Z) - VA-GS: Enhancing the Geometric Representation of Gaussian Splatting via View Alignment [48.147381011235446]
3D Gaussian Splattingは、リアルタイムな新規ビュー合成のための効率的なソリューションとして最近登場した。
ビューアライメントによる3次元ガウス多様体の幾何学的表現を強化する新しい手法を提案する。
本手法は, 表面再構成と新しいビュー合成の両面において, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-10-13T14:44:50Z) - Proximal Vision Transformer: Enhancing Feature Representation through Two-Stage Manifold Geometry [7.3623134099785155]
ビジョントランスフォーマー(ViT)はコンピュータビジョンにおいて広く認知され、その自己認識機構を活用して様々なタスクで顕著な成功を収めている。
本稿では,近位ツールとViTを統合した新しいフレームワークを提案し,統一的な幾何最適化手法を提案する。
実験結果から,提案手法は分類精度とデータ分布の点で従来のViTよりも優れていたことが確認された。
論文 参考訳(メタデータ) (2025-08-23T16:39:09Z) - Generalizable and Relightable Gaussian Splatting for Human Novel View Synthesis [49.67420486373202]
GRGSは、多彩な照明条件下での高忠実なヒューマン・ノベル・ビュー・シンセサイザーのための一般的な3Dガウスのフレームワークである。
我々は, 精密深度および表面の正常度を予測するために, 合成依存データに基づいて学習した照明対応幾何微細化(LGR)モジュールを提案する。
論文 参考訳(メタデータ) (2025-05-27T17:59:47Z) - GTR: Gaussian Splatting Tracking and Reconstruction of Unknown Objects Based on Appearance and Geometric Complexity [49.31257173003408]
モノクローナルRGBDビデオからの6-DoFオブジェクト追跡と高品質な3D再構成のための新しい手法を提案する。
提案手法は, 高忠実度オブジェクトメッシュを復元する強力な能力を示し, オープンワールド環境における単一センサ3D再構成のための新しい標準を策定する。
論文 参考訳(メタデータ) (2025-05-17T08:46:29Z) - Evolving High-Quality Rendering and Reconstruction in a Unified Framework with Contribution-Adaptive Regularization [27.509109317973817]
3D Gaussian Splatting (3DGS)は、高品質なレンダリングと高速な推論速度で注目されている。
従来の手法は主に幾何学的正則化に焦点を当てており、プリミティブベースのフレームワークやデュアルモデルフレームワークを含む一般的なアプローチがある。
本稿では,高画質表面再構成を実現するために,適応正規化を利用した統一モデルであるCarGSを提案する。
論文 参考訳(メタデータ) (2025-03-02T12:51:38Z) - Dora: Sampling and Benchmarking for 3D Shape Variational Auto-Encoders [87.17440422575721]
Dora-VAEは,提案したシャープエッジサンプリング戦略と2つのクロスアテンション機構により,VAEの再構築を促進する新しいアプローチである。
Dora-VAEは最先端の高密度XCube-VAEに匹敵する再現性を実現し、少なくとも8$times$小さめの遅延空間を必要とする。
論文 参考訳(メタデータ) (2024-12-23T18:59:06Z) - MonoGSDF: Exploring Monocular Geometric Cues for Gaussian Splatting-Guided Implicit Surface Reconstruction [86.87464903285208]
高品質な再構成のための神経信号距離場(SDF)とプリミティブを結合する新しい手法であるMonoGSDFを紹介する。
任意のスケールのシーンを扱うために,ロバストな一般化のためのスケーリング戦略を提案する。
実世界のデータセットの実験は、効率を保ちながら、以前の方法よりも優れています。
論文 参考訳(メタデータ) (2024-11-25T20:07:07Z) - NeuSurf: On-Surface Priors for Neural Surface Reconstruction from Sparse
Input Views [41.03837477483364]
本研究では,表面の高度に忠実な再構成を実現するために,地上の事前情報を活用する新しいスパース・ビュー・リコンストラクション・フレームワークを提案する。
具体的には,大域的幾何アライメントと局所的幾何洗練に関するいくつかの制約を設計し,粗い形状と細部を協調的に最適化する。
DTUとBlendedMVSデータセットによる2つの一般的なスパース設定の実験結果は、最先端の手法よりも大幅に改善されたことを示している。
論文 参考訳(メタデータ) (2023-12-21T16:04:45Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - DARF: Depth-Aware Generalizable Neural Radiance Field [51.29437249009986]
本稿では,Depth-Aware Dynamic Smpling(DADS)戦略を用いたDARF(Depth-Aware Generalizable Neural Radiance Field)を提案する。
筆者らのフレームワークは,数枚の入力画像で,画素レベルと幾何学レベルの両方の見えないシーンを推測する。
DARFは、最先端の一般化可能なNeRF法と比較して、レンダリング品質と深さ推定を改善しつつ、サンプルを50%削減する。
論文 参考訳(メタデータ) (2022-12-05T14:00:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。