論文の概要: GS-Occ3D: Scaling Vision-only Occupancy Reconstruction for Autonomous Driving with Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2507.19451v2
- Date: Wed, 30 Jul 2025 16:27:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 14:05:51.382959
- Title: GS-Occ3D: Scaling Vision-only Occupancy Reconstruction for Autonomous Driving with Gaussian Splatting
- Title(参考訳): GS-Occ3D:ガウススプラッティングによる自律走行のための視力のみの動作再構成
- Authors: Baijun Ye, Minghui Qin, Saining Zhang, Moonjun Gong, Shaoting Zhu, Zebang Shen, Luan Zhang, Lu Zhang, Hao Zhao, Hang Zhao,
- Abstract要約: 職業は自律運転に不可欠であり、知覚と計画に不可欠な幾何学的事前情報を提供する。
既存のメソッドは、主にLiDARベースの占有アノテーションに依存している。
本稿では,視覚のみのスケーラブルなフレームワークであるGS-Occ3Dを提案する。
- 参考スコア(独自算出の注目度): 31.53981556612888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Occupancy is crucial for autonomous driving, providing essential geometric priors for perception and planning. However, existing methods predominantly rely on LiDAR-based occupancy annotations, which limits scalability and prevents leveraging vast amounts of potential crowdsourced data for auto-labeling. To address this, we propose GS-Occ3D, a scalable vision-only framework that directly reconstructs occupancy. Vision-only occupancy reconstruction poses significant challenges due to sparse viewpoints, dynamic scene elements, severe occlusions, and long-horizon motion. Existing vision-based methods primarily rely on mesh representation, which suffer from incomplete geometry and additional post-processing, limiting scalability. To overcome these issues, GS-Occ3D optimizes an explicit occupancy representation using an Octree-based Gaussian Surfel formulation, ensuring efficiency and scalability. Additionally, we decompose scenes into static background, ground, and dynamic objects, enabling tailored modeling strategies: (1) Ground is explicitly reconstructed as a dominant structural element, significantly improving large-area consistency; (2) Dynamic vehicles are separately modeled to better capture motion-related occupancy patterns. Extensive experiments on the Waymo dataset demonstrate that GS-Occ3D achieves state-of-the-art geometry reconstruction results. By curating vision-only binary occupancy labels from diverse urban scenes, we show their effectiveness for downstream occupancy models on Occ3D-Waymo and superior zero-shot generalization on Occ3D-nuScenes. It highlights the potential of large-scale vision-based occupancy reconstruction as a new paradigm for scalable auto-labeling. Project Page: https://gs-occ3d.github.io/
- Abstract(参考訳): 職業は自律運転に不可欠であり、知覚と計画に不可欠な幾何学的事前情報を提供する。
しかし、既存の手法は主にLiDARベースの占有アノテーションに依存しており、スケーラビリティを制限し、自動ラベル付けのために大量のクラウドソースデータを活用するのを防いでいる。
そこで本研究では,視覚のみのスケーラブルなフレームワークであるGS-Occ3Dを提案する。
視力のみの占有再建は、スパース視点、ダイナミックシーン要素、重度閉塞、ロングホライゾン運動などの問題を引き起こす。
既存のビジョンベースの手法は主にメッシュ表現に依存しており、不完全な幾何学と追加の後処理、スケーラビリティの制限に悩まされている。
これらの問題を解決するため、GS-Occ3DはOctoreeベースのGaussian Surfelの定式化を用いて明示的な占有率表現を最適化し、効率とスケーラビリティを確保する。
さらに, シーンを静的な背景, 接地, 動的オブジェクトに分解し, 調整されたモデリング戦略を可能にする。(1) グラウンドは支配的構造要素として明示的に再構成され, 大面積の一貫性が著しく向上する; (2) 動的車両は運動関連占有パターンをよりよく捉えるために別々にモデル化される。
Waymoデータセットの大規模な実験は、GS-Occ3Dが最先端の幾何学的再構成結果を達成することを示した。
Occ3D-Waymoの下流占領モデルとOcc3D-nuScenesのゼロショット一般化に対する有効性を示す。
これは、スケーラブルなオートラベルのための新しいパラダイムとして、大規模な視覚ベースの占有再建の可能性を強調している。
Project Page: https://gs-occ3d.github.io/
関連論文リスト
- GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control [50.67481583744243]
実世界モデルにロバストな3次元形状条件を明示的に統合したGeoDriveを紹介する。
車両の位置を編集することでレンダリングを強化するため,トレーニング中の動的編集モジュールを提案する。
動作精度と空間認識の両面で既存のモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-05-28T14:46:51Z) - Intern-GS: Vision Model Guided Sparse-View 3D Gaussian Splatting [95.61137026932062]
Intern-GSはスパースビューガウススプラッティングのプロセスを強化する新しいアプローチである。
Intern-GSは多様なデータセットにまたがって最先端のレンダリング品質を実現する。
論文 参考訳(メタデータ) (2025-05-27T05:17:49Z) - MetaSSC: Enhancing 3D Semantic Scene Completion for Autonomous Driving through Meta-Learning and Long-sequence Modeling [3.139165705827712]
セマンティックシーン補完(SSC)のためのメタラーニングに基づく新しいフレームワークであるMetaSSCを紹介する。
我々のアプローチは、不完全領域のセマンティックスと幾何学を探求することを目的とした、ボクセルに基づくセマンティックセマンティックセマンティクス(SS)事前訓練タスクから始まる。
シミュレーションされた協調認識データセットを用いて、集約されたセンサデータを用いて1台の車両の知覚訓練を監督する。
このメタ知識は、二重フェーズのトレーニング戦略を通じてターゲットドメインに適応し、効率的なデプロイメントを可能にする。
論文 参考訳(メタデータ) (2024-11-06T05:11:25Z) - Improving 3D Occupancy Prediction through Class-balancing Loss and Multi-scale Representation [7.651064601670273]
自動運転システムには3D環境認識が不可欠である。
Birds-Eye-View(BEV)に基づく認識は,このタスクのSOTA性能を達成している。
この問題を解決するために,新しいUNetライクなマルチスケールOccupancy Headモジュールを導入する。
論文 参考訳(メタデータ) (2024-05-25T07:13:13Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。