論文の概要: GS-Occ3D: Scaling Vision-only Occupancy Reconstruction for Autonomous Driving with Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2507.19451v1
- Date: Fri, 25 Jul 2025 17:33:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:49.051008
- Title: GS-Occ3D: Scaling Vision-only Occupancy Reconstruction for Autonomous Driving with Gaussian Splatting
- Title(参考訳): GS-Occ3D:ガウススプラッティングによる自律走行のための視力のみの動作再構成
- Authors: Baijun Ye, Minghui Qin, Saining Zhang, Moonjun Gong, Shaoting Zhu, Zebang Shen, Luan Zhang, Lu Zhang, Hao Zhao, Hang Zhao,
- Abstract要約: 職業は自律運転に不可欠であり、知覚と計画に不可欠な幾何学的事前情報を提供する。
既存のメソッドは、主にLiDARベースの占有アノテーションに依存している。
本稿では,視覚のみのスケーラブルなフレームワークであるGS-Occ3Dを提案する。
- 参考スコア(独自算出の注目度): 31.53981556612888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Occupancy is crucial for autonomous driving, providing essential geometric priors for perception and planning. However, existing methods predominantly rely on LiDAR-based occupancy annotations, which limits scalability and prevents leveraging vast amounts of potential crowdsourced data for auto-labeling. To address this, we propose GS-Occ3D, a scalable vision-only framework that directly reconstructs occupancy. Vision-only occupancy reconstruction poses significant challenges due to sparse viewpoints, dynamic scene elements, severe occlusions, and long-horizon motion. Existing vision-based methods primarily rely on mesh representation, which suffer from incomplete geometry and additional post-processing, limiting scalability. To overcome these issues, GS-Occ3D optimizes an explicit occupancy representation using an Octree-based Gaussian Surfel formulation, ensuring efficiency and scalability. Additionally, we decompose scenes into static background, ground, and dynamic objects, enabling tailored modeling strategies: (1) Ground is explicitly reconstructed as a dominant structural element, significantly improving large-area consistency; (2) Dynamic vehicles are separately modeled to better capture motion-related occupancy patterns. Extensive experiments on the Waymo dataset demonstrate that GS-Occ3D achieves state-of-the-art geometry reconstruction results. By curating vision-only binary occupancy labels from diverse urban scenes, we show their effectiveness for downstream occupancy models on Occ3D-Waymo and superior zero-shot generalization on Occ3D-nuScenes. It highlights the potential of large-scale vision-based occupancy reconstruction as a new paradigm for autonomous driving perception. Project Page: https://gs-occ3d.github.io/
- Abstract(参考訳): 職業は自律運転に不可欠であり、知覚と計画に不可欠な幾何学的事前情報を提供する。
しかし、既存の手法は主にLiDARベースの占有アノテーションに依存しており、スケーラビリティを制限し、自動ラベル付けのために大量のクラウドソースデータを活用するのを防いでいる。
そこで本研究では,視覚のみのスケーラブルなフレームワークであるGS-Occ3Dを提案する。
視力のみの占有再建は、スパース視点、ダイナミックシーン要素、重度閉塞、ロングホライゾン運動などの問題を引き起こす。
既存のビジョンベースの手法は主にメッシュ表現に依存しており、不完全な幾何学と追加の後処理、スケーラビリティの制限に悩まされている。
これらの問題を解決するため、GS-Occ3DはOctoreeベースのGaussian Surfelの定式化を用いて明示的な占有率表現を最適化し、効率とスケーラビリティを確保する。
さらに, シーンを静的な背景, 接地, 動的オブジェクトに分解し, 調整されたモデリング戦略を可能にする。(1) グラウンドは支配的構造要素として明示的に再構成され, 大面積の一貫性が著しく向上する; (2) 動的車両は運動関連占有パターンをよりよく捉えるために別々にモデル化される。
Waymoデータセットの大規模な実験は、GS-Occ3Dが最先端の幾何学的再構成結果を達成することを示した。
Occ3D-Waymoの下流占領モデルとOcc3D-nuScenesのゼロショット一般化に対する有効性を示す。
これは、自律運転知覚の新しいパラダイムとして、大規模視力に基づく占領再建の可能性を強調している。
Project Page: https://gs-occ3d.github.io/
関連論文リスト
- Sat2City: 3D City Generation from A Single Satellite Image with Cascaded Latent Diffusion [18.943643720564996]
Sat2Cityは、スパースボクセルグリッドの表現能力を潜在拡散モデルと相乗化する新しいフレームワークである。
衛星視高マップと組み合わせた大規模3D都市を合成したデータセットを提案する。
本フレームワークは, 衛星画像から詳細な3次元構造を生成し, 既存の都市モデルに比べ, 忠実度に優れていた。
論文 参考訳(メタデータ) (2025-07-06T14:30:08Z) - GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control [50.67481583744243]
実世界モデルにロバストな3次元形状条件を明示的に統合したGeoDriveを紹介する。
車両の位置を編集することでレンダリングを強化するため,トレーニング中の動的編集モジュールを提案する。
動作精度と空間認識の両面で既存のモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-05-28T14:46:51Z) - Intern-GS: Vision Model Guided Sparse-View 3D Gaussian Splatting [95.61137026932062]
Intern-GSはスパースビューガウススプラッティングのプロセスを強化する新しいアプローチである。
Intern-GSは多様なデータセットにまたがって最先端のレンダリング品質を実現する。
論文 参考訳(メタデータ) (2025-05-27T05:17:49Z) - MetaSSC: Enhancing 3D Semantic Scene Completion for Autonomous Driving through Meta-Learning and Long-sequence Modeling [3.139165705827712]
セマンティックシーン補完(SSC)のためのメタラーニングに基づく新しいフレームワークであるMetaSSCを紹介する。
我々のアプローチは、不完全領域のセマンティックスと幾何学を探求することを目的とした、ボクセルに基づくセマンティックセマンティックセマンティクス(SS)事前訓練タスクから始まる。
シミュレーションされた協調認識データセットを用いて、集約されたセンサデータを用いて1台の車両の知覚訓練を監督する。
このメタ知識は、二重フェーズのトレーニング戦略を通じてターゲットドメインに適応し、効率的なデプロイメントを可能にする。
論文 参考訳(メタデータ) (2024-11-06T05:11:25Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Improving 3D Occupancy Prediction through Class-balancing Loss and Multi-scale Representation [7.651064601670273]
自動運転システムには3D環境認識が不可欠である。
Birds-Eye-View(BEV)に基づく認識は,このタスクのSOTA性能を達成している。
この問題を解決するために,新しいUNetライクなマルチスケールOccupancy Headモジュールを導入する。
論文 参考訳(メタデータ) (2024-05-25T07:13:13Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - MonoOcc: Digging into Monocular Semantic Occupancy Prediction [20.833710016477653]
単眼セマンティック占領予測は2次元画像のみからシーンの完全な3次元形状と意味情報を推測することを目的としている。
既存の手法は、3Dシーンを復元するために、比較的限られた情報しか持たない複雑なカスケードフレームワークに依存している。
本手法は,SemanticKITTI Scene Completionベンチマークを用いて,最先端の性能を示す。
論文 参考訳(メタデータ) (2024-03-13T17:59:04Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。