論文の概要: SUG-Occ: An Explicit Semantics and Uncertainty Guided Sparse Learning Framework for Real-Time 3D Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2601.11396v3
- Date: Thu, 22 Jan 2026 10:43:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 13:30:18.380979
- Title: SUG-Occ: An Explicit Semantics and Uncertainty Guided Sparse Learning Framework for Real-Time 3D Occupancy Prediction
- Title(参考訳): SUG-Occ:リアルタイム3D作業予測のための明示的セマンティクスと不確実性ガイド付きスパース学習フレームワーク
- Authors: Hanlin Wu, Pengfei Lin, Ehsan Javanmardi, Naren Bao, Bo Qian, Hao Si, Manabu Tsukada,
- Abstract要約: SuG-Occは明示的なセマンティックスと不確実性ガイドによるスパース学習を可能とした3D職業予測フレームワークである。
まず、ビュー変換時の自由空間からの射影を抑えるために、意味的および不確実性事前を利用する。
次に、幾何整合性を高めるために明示的な符号なし距離符号化を用い、構造的に一貫したスパース3D表現を生成する。
- 参考スコア(独自算出の注目度): 5.730573889498275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As autonomous driving moves toward full scene understanding, 3D semantic occupancy prediction has emerged as a crucial perception task, offering voxel-level semantics beyond traditional detection and segmentation paradigms. However, such a refined representation for scene understanding incurs prohibitive computation and memory overhead, posing a major barrier to practical real-time deployment. To address this, we propose SUG-Occ, an explicit Semantics and Uncertainty Guided Sparse Learning Enabled 3D Occupancy Prediction Framework, which exploits the inherent sparsity of 3D scenes to reduce redundant computation while maintaining geometric and semantic completeness. Specifically, we first utilize semantic and uncertainty priors to suppress projections from free space during view transformation while employing an explicit unsigned distance encoding to enhance geometric consistency, producing a structurally consistent sparse 3D representation. Secondly, we design an cascade sparse completion module via hyper cross sparse convolution and generative upsampling to enable efficiently coarse-to-fine reasoning. Finally, we devise an object contextual representation (OCR) based mask decoder that aggregates global semantic context from sparse features and refines voxel-wise predictions via lightweight query-context interactions, avoiding expensive attention operations over volumetric features. Extensive experiments on SemanticKITTI benchmark demonstrate that the proposed approach outperforms the baselines, achieving a 7.34/% improvement in accuracy and a 57.8\% gain in efficiency.
- Abstract(参考訳): 自律運転が全シーン理解に向かって進むにつれ、3Dセマンティック占有予測が重要な認識課題として現れ、従来の検出やセグメンテーションのパラダイムを超えて、ボクセルレベルのセマンティクスを提供する。
しかし、シーン理解のための洗練された表現は、計算とメモリオーバーヘッドを禁止し、現実的なリアルタイムデプロイメントにとって大きな障壁となる。
そこで本研究では,3次元シーンの冗長性を生かし,幾何学的・意味的完全性を維持しながら冗長な計算を削減した,明示的なセマンティックスと不確実性ガイド付きスパース学習のための3次元実行予測フレームワークSUG-Occを提案する。
具体的には、まず、図形変換中に自由空間からの射影を抑えるために意味的および不確実性事前を利用して、幾何的整合性を高めるために明示的な符号なし距離符号化を用いて、構造的に一貫したスパース3D表現を生成する。
第2に,超クロススパース畳み込みと生成的アップサンプリングによるカスケードスパース完了モジュールを設計し,より効率的な粗大な推論を可能にする。
最後に、オブジェクトコンテキスト表現(OCR)ベースのマスクデコーダを考案し、スパース機能からグローバルなセマンティックコンテキストを集約し、軽量なクエリコンテキストインタラクションを通じてボクセルの予測を洗練し、ボリューム機能に対する高価な注意操作を回避する。
SemanticKITTIベンチマークの大規模な実験は、提案手法がベースラインを上回り、精度が7.34/%向上し、効率が57.8\%向上したことを示している。
関連論文リスト
- SegSplat: Feed-forward Gaussian Splatting and Open-Set Semantic Segmentation [114.57192386025373]
SegSplatは、高速でフィードフォワードな3D再構成とリッチでオープンなセマンティック理解のギャップを埋めるために設計された、新しいフレームワークである。
この研究は、意味的に認識された3D環境の実践的でオンザフライな生成に向けた重要なステップである。
論文 参考訳(メタデータ) (2025-11-23T10:26:38Z) - TGP: Two-modal occupancy prediction with 3D Gaussian and sparse points for 3D Environment Awareness [13.68631587423815]
3Dセマンティックな占有力は、ロボット工学と自律運転環境知覚の分野において、急速に研究の焦点となっている。
既存の占有予測タスクは、voxelやポイントクラウドベースのアプローチを使用してモデル化される。
本稿では空間的位置と体積構造情報のバランスをとる3次元ガウス集合とスパース点に基づく2次元モーダル予測法を提案する。
論文 参考訳(メタデータ) (2025-03-13T01:35:04Z) - ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - CLIP-GS: CLIP-Informed Gaussian Splatting for View-Consistent 3D Indoor Semantic Understanding [17.440124130814166]
室内シーンのオープンな3Dセマンティック理解のためのCLIPモデルを用いた3Dガウススティング(3DGS)が注目されている。
提案するセマンティック属性コンパクト性(SAC)と3Dコヒーレント正規化(3DCR)を用いて、3次元屋内シーンのコヒーレントな意味理解を効率的に実現するCLIP-GSを提案する。
ScanNetとReplicaのデータセット上で,mIoUの21.20%と13.05%の改善を実現し,既存の最先端手法を著しく抑制する。
論文 参考訳(メタデータ) (2024-04-22T15:01:32Z) - Volumetric Semantically Consistent 3D Panoptic Mapping [77.13446499924977]
非構造環境における自律エージェントに適したセマンティック3Dマップを生成することを目的としたオンライン2次元から3次元のセマンティック・インスタンスマッピングアルゴリズムを提案する。
マッピング中にセマンティック予測の信頼性を統合し、セマンティックおよびインスタンス一貫性のある3D領域を生成する新しい方法を導入する。
提案手法は,パブリックな大規模データセット上での最先端の精度を実現し,多くの広く使用されているメトリクスを改善した。
論文 参考訳(メタデータ) (2023-09-26T08:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。