論文の概要: VG3S: Visual Geometry Grounded Gaussian Splatting for Semantic Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2603.06210v1
- Date: Fri, 06 Mar 2026 12:26:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.683242
- Title: VG3S: Visual Geometry Grounded Gaussian Splatting for Semantic Occupancy Prediction
- Title(参考訳): VG3S:視覚幾何学的接地ガウススプラッティングによる意味的職業予測
- Authors: Xiaoyang Yan, Muleilan Pei, Shaojie Shen,
- Abstract要約: 本稿では,視覚幾何学的グラウンドド・ガウシアン・スプレイティング(VG3S)を紹介する。
nuScenesの占有率ベンチマークの実験では、VG3SはIoUで12.6%、mIoUで7.5%の大幅な改善を達成している。
- 参考スコア(独自算出の注目度): 21.87807066521776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D semantic occupancy prediction has become a crucial perception task for comprehensive scene understanding in autonomous driving. While recent advances have explored 3D Gaussian splatting for occupancy modeling to substantially reduce computational overhead, the generation of high-quality 3D Gaussians relies heavily on accurate geometric cues, which are often insufficient in purely vision-centric paradigms. To bridge this gap, we advocate for injecting the strong geometric grounding capability from Vision Foundation Models (VFMs) into occupancy prediction. In this regard, we introduce Visual Geometry Grounded Gaussian Splatting (VG3S), a novel framework that empowers Gaussian-based occupancy prediction with cross-view 3D geometric grounding. Specifically, to fully exploit the rich 3D geometric priors from a frozen VFM, we propose a plug-and-play hierarchical geometric feature adapter, which can effectively transform generic VFM tokens via feature aggregation, task-specific alignment, and multi-scale restructuring. Extensive experiments on the nuScenes occupancy benchmark demonstrate that VG3S achieves remarkable improvements of 12.6% in IoU and 7.5% in mIoU over the baseline. Furthermore, we show that VG3S generalizes seamlessly across diverse VFMs, consistently enhancing occupancy prediction accuracy and firmly underscoring the immense value of integrating priors derived from powerful, pre-trained geometry-grounded VFMs.
- Abstract(参考訳): 3次元セマンティック占有予測は、自律運転における総合的なシーン理解において重要な認識課題となっている。
最近の進歩では、計算オーバーヘッドを大幅に削減するために、3次元ガウシアンスプラッティングを探索しているが、高品質な3次元ガウシアンの生成は、純粋に視覚中心のパラダイムでは不十分な正確な幾何学的手がかりに大きく依存している。
このギャップを埋めるために、我々は視覚基礎モデル(VFM)から強い幾何学的接地能力を占有率予測に注入することを提唱する。
本稿では,視覚的幾何学的接地(Visual Geometry Grounded Gaussian Splatting, VG3S)を紹介する。
具体的には、凍結したVFMからリッチな3次元幾何学的先行をフル活用するために、機能集約、タスク固有のアライメント、マルチスケール再構成を通じて、汎用的なVFMトークンを効果的に変換できるプラグアンドプレイの階層的特徴適応器を提案する。
nuScenesの占有率ベンチマークに関する大規模な実験では、VG3SはIoUで12.6%、mIoUで7.5%の大幅な改善を達成している。
さらに,VG3Sは多様なVFMに対してシームレスに一般化し,占有率予測の精度を一貫して向上し,より強力で事前学習されたVFMから得られる事前統合の膨大な価値を確証することを示す。
関連論文リスト
- ShelfGaussian: Shelf-Supervised Open-Vocabulary Gaussian-based 3D Scene Understanding [7.610505486431266]
オープンボキャブラリ型多モードガウス型3Dシーン理解フレームワークであるShelfGaussianについて紹介する。
既存の手法は、オブジェクトをアノテーション付き3Dラベルで教師される閉集合意味ガウスとしてモデル化し、そのレンダリング能力を無視したり、純粋に2Dの自己スーパービジョンを通じてオープンセットガウス表現を学習する。
論文 参考訳(メタデータ) (2025-12-03T02:06:09Z) - VG3T: Visual Geometry Grounded Gaussian Transformer [18.15986152198467]
VG3Tは、新しい多視点フィードフォワードネットワークであり、3Dガウス表現を介して3Dセマンティック占有を予測している。
従来のnuScenesベンチマークよりもプリミティブが46%少ないのに対して、mIoUは1.7%向上した。
論文 参考訳(メタデータ) (2025-11-28T07:27:20Z) - GauSSmart: Enhanced 3D Reconstruction through 2D Foundation Models and Geometric Filtering [50.675710727721786]
2次元基礎モデルと3次元ガウススプラッティング再構成をブリッジするハイブリッド手法であるGauSSmartを提案する。
提案手法は,凸フィルタリングや意味的特徴監視など,確立した2次元コンピュータビジョン技術を統合している。
GauSSmartは既存のGaussian Splattingよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-10-16T03:38:26Z) - Stereo-GS: Multi-View Stereo Vision Model for Generalizable 3D Gaussian Splatting Reconstruction [30.518107360632488]
一般化可能な3Dガウス・スプレイティング・リコンストラクションは、高度な画像から3Dコンテンツの作成を展示する。
methodは現実世界の3Dコンテンツ生成に効率的でスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-07-20T11:33:13Z) - GaussianFormer3D: Multi-Modal Gaussian-based Semantic Occupancy Prediction with 3D Deformable Attention [15.890744831541452]
3Dセマンティック占有予測は、安全で信頼性の高い自動運転を実現するために重要である。
本稿では,3次元変形可能な注意力を利用したマルチモーダルガウスに基づくセマンティック占有予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T20:05:08Z) - GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding [44.68350305790145]
GaussTRは3次元空間理解を促進するためにガウス表現を通して基礎モデルアライメントとスパース3次元モデリングを統一する新しいトランスフォーマーフレームワークである。
Occ3D-nuScenesデータセットの実験では、GaussTRの12.27 mIoUの最先端のゼロショット性能と、トレーニング時間の40%削減が示されている。
これらの結果は、スケーラブルで総合的な3次元空間理解のためのGaussTRの有効性を強調し、自律運転とエンボディエージェントに有望な意味を持つ。
論文 参考訳(メタデータ) (2024-12-17T18:59:46Z) - MonoGSDF: Exploring Monocular Geometric Cues for Gaussian Splatting-Guided Implicit Surface Reconstruction [86.87464903285208]
高品質な再構成のための神経信号距離場(SDF)とプリミティブを結合する新しい手法であるMonoGSDFを紹介する。
任意のスケールのシーンを扱うために,ロバストな一般化のためのスケーリング戦略を提案する。
実世界のデータセットの実験は、効率を保ちながら、以前の方法よりも優れています。
論文 参考訳(メタデータ) (2024-11-25T20:07:07Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。