論文の概要: S2GO: Streaming Sparse Gaussian Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2506.05473v1
- Date: Thu, 05 Jun 2025 18:00:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.179864
- Title: S2GO: Streaming Sparse Gaussian Occupancy Prediction
- Title(参考訳): S2GO: 希薄なガウス占領予測をストリーミング
- Authors: Jinhyung Park, Yihan Hu, Chensheng Peng, Wenzhao Zheng, Kris Kitani, Wei Zhan,
- Abstract要約: 最先端の3D占有予測法は、今でもボクセルベースまたは密度のガウスベースの3D表現に依存している。
シーンを3Dクエリのコンパクトなセットに要約し、オンラインのストリーミング形式で時間を通して伝播する。
S2GO は nuScenes と KITTI の占有率ベンチマークで最先端のパフォーマンスを達成し、1.5 IoU で5.9倍高速な推論で先行技術を上回った。
- 参考スコア(独自算出の注目度): 43.415770981305904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the demonstrated efficiency and performance of sparse query-based representations for perception, state-of-the-art 3D occupancy prediction methods still rely on voxel-based or dense Gaussian-based 3D representations. However, dense representations are slow, and they lack flexibility in capturing the temporal dynamics of driving scenes. Distinct from prior work, we instead summarize the scene into a compact set of 3D queries which are propagated through time in an online, streaming fashion. These queries are then decoded into semantic Gaussians at each timestep. We couple our framework with a denoising rendering objective to guide the queries and their constituent Gaussians in effectively capturing scene geometry. Owing to its efficient, query-based representation, S2GO achieves state-of-the-art performance on the nuScenes and KITTI occupancy benchmarks, outperforming prior art (e.g., GaussianWorld) by 1.5 IoU with 5.9x faster inference.
- Abstract(参考訳): 認識のためのスパースクエリベースの表現の効率と性能が実証されているにもかかわらず、最先端の3D占有率予測手法は依然としてボクセルベースまたは密度のガウスベースの3D表現に依存している。
しかし、濃密な表現は遅く、運転シーンの時間的ダイナミクスを捉える柔軟性に欠ける。
従来の作業とは違って、シーンをコンパクトな3Dクエリセットにまとめて、オンラインのストリーミング形式で時間を通して伝播する。
これらのクエリは各時間ステップで意味ガウスアンにデコードされる。
我々は,我々のフレームワークを,クエリとその構成したガウスアンを指導し,シーン幾何学を効果的に捉えるための視覚的レンダリングの目的と組み合わせた。
その効率的でクエリベースの表現のため、S2GOはnuScenesとKITTIの占有率ベンチマークで最先端のパフォーマンスを達成し、1.5 IoUで5.9倍高速な推論で先行技術(例えばGaussianWorld)を上回っている。
関連論文リスト
- TT-Occ: Test-Time Compute for Self-Supervised Occupancy via Spatio-Temporal Gaussian Splatting [32.57885385644153]
自己監督型3D占有予測は、コストのかかる3Dアノテーションを必要とせずに、シーンの運転を理解するための有望なソリューションを提供する。
TT-Occと呼ばれる実用的で柔軟なテストタイム占有予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-11T14:37:39Z) - Efficient Gaussian Splatting for Monocular Dynamic Scene Rendering via Sparse Time-Variant Attribute Modeling [64.84686527988809]
Deformable Gaussian Splattingは、現実世界のダイナミックなシーンを表現する堅牢なソリューションとして登場した。
提案手法は,古典的カーネル表現を用いて計算された密度ガウスの運動流を用いて,スパースアンカーグリッド表現を用いて動的シーンを定式化する。
2つの実世界のデータセットの実験により、EDGSはレンダリング速度を大幅に改善し、より優れたレンダリング品質を実現しています。
論文 参考訳(メタデータ) (2025-02-27T18:53:06Z) - GaussianAD: Gaussian-Centric End-to-End Autonomous Driving [23.71316979650116]
視覚に基づく自動運転は、十分な性能と低コストのために大きな可能性を秘めている。
既存のほとんどの方法は、決定のために密度の高い表現(例えば鳥の眼図)やスパース表現(例箱)を採用する。
本稿では、ガウス中心のエンドツーエンド自動運転フレームワークを探求し、3Dセマンティックガウスを利用して、そのシーンを広義に記述する。
論文 参考訳(メタデータ) (2024-12-13T18:59:30Z) - 4D Gaussian Splatting with Scale-aware Residual Field and Adaptive Optimization for Real-time Rendering of Temporally Complex Dynamic Scenes [19.24815625343669]
SaRO-GSはリアルタイムレンダリングを実現する新しい動的シーン表現である。
時間的に複雑な動的シーンを扱うために,スケールアウェアなResidual Fieldを導入する。
我々の手法は最先端の性能を実証した。
論文 参考訳(メタデータ) (2024-12-09T08:44:19Z) - Fully Explicit Dynamic Gaussian Splatting [22.889981393105554]
3D Gaussian Splattingは、高密度な3D事前表現と明示的な表現を活用することで、静的シーンにおける高速かつ高品質なレンダリング結果を示している。
本稿では,Ex4DGSの収束性を改善するためのプログレッシブトレーニング手法とポイントバックトラッキング手法を提案する。
2080TiのGPU上で62fpsの高速レンダリングを実現するため,様々な場面での総合的な実験を行った。
論文 参考訳(メタデータ) (2024-10-21T04:25:43Z) - GaussianOcc: Fully Self-supervised and Efficient 3D Occupancy Estimation with Gaussian Splatting [16.480043962212566]
本研究では, ガウススプラッティングとガウススプラッティングの2つの利用法を提案する。
その結果,GussianOcc法では,計算コストの低い競合性能において,完全に自己監督された3次元占有率推定が可能となった。
論文 参考訳(メタデータ) (2024-08-21T09:06:30Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting [51.96353586773191]
我々は,まず3次元ガウス表現を利用したtextbfGS-SLAM を提案する。
提案手法は,地図の最適化とRGB-Dレンダリングの大幅な高速化を実現するリアルタイム微分可能なスプレイティングレンダリングパイプラインを利用する。
提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-20T12:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。