論文の概要: Generalizing Visual Geometry Priors to Sparse Gaussian Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2602.21552v1
- Date: Wed, 25 Feb 2026 04:16:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.700663
- Title: Generalizing Visual Geometry Priors to Sparse Gaussian Occupancy Prediction
- Title(参考訳): まばらなガウス活動予測に先立つ視覚幾何学の一般化
- Authors: Changqing Zhou, Yueru Luo, Changhao Chen,
- Abstract要約: GPOccは、視覚的幾何学的先行情報を利用して、単眼での占有予測を行うフレームワークである。
Occ-ScanNet と EmbodiedOcc-ScanNet の実験は、大きな成功を収めた。
- 参考スコア(独自算出の注目度): 10.394184895110007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate 3D scene understanding is essential for embodied intelligence, with occupancy prediction emerging as a key task for reasoning about both objects and free space. Existing approaches largely rely on depth priors (e.g., DepthAnything) but make only limited use of 3D cues, restricting performance and generalization. Recently, visual geometry models such as VGGT have shown strong capability in providing rich 3D priors, but similar to monocular depth foundation models, they still operate at the level of visible surfaces rather than volumetric interiors, motivating us to explore how to more effectively leverage these increasingly powerful geometry priors for 3D occupancy prediction. We present GPOcc, a framework that leverages generalizable visual geometry priors (GPs) for monocular occupancy prediction. Our method extends surface points inward along camera rays to generate volumetric samples, which are represented as Gaussian primitives for probabilistic occupancy inference. To handle streaming input, we further design a training-free incremental update strategy that fuses per-frame Gaussians into a unified global representation. Experiments on Occ-ScanNet and EmbodiedOcc-ScanNet demonstrate significant gains: GPOcc improves mIoU by +9.99 in the monocular setting and +11.79 in the streaming setting over prior state of the art. Under the same depth prior, it achieves +6.73 mIoU while running 2.65$\times$ faster. These results highlight that GPOcc leverages geometry priors more effectively and efficiently. Code will be released at https://github.com/JuIvyy/GPOcc.
- Abstract(参考訳): 正確な3Dシーン理解は、インテリジェンスを具現化する上で不可欠であり、物体と自由空間の両方を推論するための重要なタスクとして、占有率予測が出現する。
既存のアプローチは奥行き先(例えばDepthAnything)に大きく依存するが、3Dキューしか使用せず、性能と一般化を制限している。
近年、VGGTのような視覚幾何学モデルでは、リッチな3次元先行モデルを提供する能力が強いが、単分子深度基礎モデルと同様に、それでも体積内よりも可視面のレベルで動作し、3次元占有予測にこれらの強力な幾何学的先行モデルをより効果的に活用する方法を探る動機となっている。
GPOccは,単分子占有予測に一般化可能な視覚幾何先行(GP)を利用するフレームワークである。
提案手法は, 確率的占有推定のためのガウス的プリミティブとして表現される体積サンプルを生成するために, カメラ線に沿って内部に面点を拡大する。
ストリーミング入力を処理するために、フレームごとのガウスを統一されたグローバル表現に融合する、トレーニング不要のインクリメンタルアップデート戦略をさらに設計する。
Occ-ScanNet と EmbodiedOcc-ScanNet の実験により、GPOcc は mIoU をモノラル設定で +9.99 、ストリーミング設定で +11.79 で改善した。
同じ深さで、+6.73 mIoUを達成し、2.65$\times$速く走る。
これらの結果は、GPOccがより効率的かつ効率的に幾何の先行を活用できることを浮き彫りにしている。
コードはhttps://github.com/JuIvyy/GPOcc.comでリリースされる。
関連論文リスト
- DGOcc: Depth-aware Global Query-based Network for Monocular 3D Occupancy Prediction [17.38916914453357]
2次元画像から大規模屋外シーンの3次元占有を予測することは、不適切で資源集約的である。
モノクロ3DのtextbfOccupancy 予測のための textbfGlobal クエリベースのネットワーク textbfDGOcc を提案する。
提案手法は,GPUと時間オーバーヘッドを低減しつつ,単分子的セマンティック占有率予測における最高の性能を実現する。
論文 参考訳(メタデータ) (2025-04-10T07:44:55Z) - GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。
提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction [67.81475355852997]
3次元占有予測は、周囲の包括的認識のため、自動運転にとって重要である。
本研究では、シーンの進化を知覚に利用するための世界モデルに基づくフレームワークを提案する。
我々のフレームワークは、追加の計算を導入することなく、mIoUの単一フレームの性能を2%以上向上させる。
論文 参考訳(メタデータ) (2024-12-13T18:59:54Z) - EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding [72.96388875744704]
3D占有予測は周囲のシーンを包括的に記述する。
既存のほとんどのメソッドは、1つか数つのビューからのオフラインの認識に焦点を当てている。
具体化された3次元占有予測タスクを定式化し,ガウスをベースとしたEmbodiedOccフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:57:09Z) - AGS-Mesh: Adaptive Gaussian Splatting and Meshing with Geometric Priors for Indoor Room Reconstruction Using Smartphones [19.429461194706786]
室内シーンの正確な3次元再構成のためのガウススメッティング法における接合面深度と正規化のアプローチを提案する。
我々のフィルタリング戦略と最適化設計は、メッシュ推定と新規ビュー合成の両方において大きな改善を示す。
論文 参考訳(メタデータ) (2024-11-28T17:04:32Z) - Real-Time 3D Occupancy Prediction via Geometric-Semantic Disentanglement [8.592248643229675]
運転予測は自律運転(AD)において重要な役割を担っている
既存の手法はしばしば高い計算コストを発生させるが、これはADのリアルタイム要求と矛盾する。
ハイブリッドBEV-Voxel表現を用いた幾何学的意味的デュアルブランチネットワーク(GSDBN)を提案する。
論文 参考訳(メタデータ) (2024-07-18T04:46:13Z) - CodeVIO: Visual-Inertial Odometry with Learned Optimizable Dense Depth [83.77839773394106]
本稿では,軽量で密結合の深い深度ネットワークと視覚慣性オドメトリーシステムを提案する。
我々は、初期深度予測の精度を高めるために、以前にVIOから切り離されたスパース特徴を持つネットワークを提供する。
本稿では,ネットワークとコードヤコビアンでのみGPUアクセラレーションを活用しながら,シングルスレッド実行でリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-12-18T09:42:54Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。