論文の概要: QuadricFormer: Scene as Superquadrics for 3D Semantic Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2506.10977v1
- Date: Thu, 12 Jun 2025 17:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.906837
- Title: QuadricFormer: Scene as Superquadrics for 3D Semantic Occupancy Prediction
- Title(参考訳): QuadricFormer:3Dセマンティック動作予測のためのスーパークワッドリックとしてのシーン
- Authors: Sicheng Zuo, Wenzhao Zheng, Xiaoyong Han, Longchao Yang, Yong Pan, Jiwen Lu,
- Abstract要約: 3D占有予測は、堅牢な自動運転システムにとって不可欠である。
既存の手法のほとんどは、密度の高いボクセルベースのシーン表現を使用している。
効率的な3次元占有予測のためのスーパークワッドリックモデルであるQuadricFormerを提案する。
- 参考スコア(独自算出の注目度): 49.75084732129701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D occupancy prediction is crucial for robust autonomous driving systems as it enables comprehensive perception of environmental structures and semantics. Most existing methods employ dense voxel-based scene representations, ignoring the sparsity of driving scenes and resulting in inefficiency. Recent works explore object-centric representations based on sparse Gaussians, but their ellipsoidal shape prior limits the modeling of diverse structures. In real-world driving scenes, objects exhibit rich geometries (e.g., cuboids, cylinders, and irregular shapes), necessitating excessive ellipsoidal Gaussians densely packed for accurate modeling, which leads to inefficient representations. To address this, we propose to use geometrically expressive superquadrics as scene primitives, enabling efficient representation of complex structures with fewer primitives through their inherent shape diversity. We develop a probabilistic superquadric mixture model, which interprets each superquadric as an occupancy probability distribution with a corresponding geometry prior, and calculates semantics through probabilistic mixture. Building on this, we present QuadricFormer, a superquadric-based model for efficient 3D occupancy prediction, and introduce a pruning-and-splitting module to further enhance modeling efficiency by concentrating superquadrics in occupied regions. Extensive experiments on the nuScenes dataset demonstrate that QuadricFormer achieves state-of-the-art performance while maintaining superior efficiency.
- Abstract(参考訳): 環境構造やセマンティクスの包括的認識を可能にするため、ロバストな自律運転システムには3D占有予測が不可欠である。
既存のほとんどの方法は、密度の高いボクセルベースのシーン表現を採用しており、運転シーンの空間性を無視し、効率の悪さをもたらす。
最近の研究は、スパースガウシアンに基づく対象中心表現を探索しているが、楕円形の形状は、様々な構造のモデリングに先立って制限される。
現実世界の運転シーンでは、物体はリッチな幾何学(例えば、立方体、シリンダー、不規則な形状)を示し、正確なモデリングのために過剰な楕円体ガウスを密に詰め込み、非効率な表現をもたらす。
そこで本稿では, シーンプリミティブとして幾何学的に表現されたスーパークワッドリックを用いることにより, より少ないプリミティブの複雑な構造の表現を, 固有形状の多様性を通じて効率的に行うことを提案する。
本研究では,各スーパークワッドリックを,それに対応する幾何以前の占有確率分布と解釈し,確率混合による意味論を計算する確率的スーパークワッドリック混合モデルを開発した。
そこで本研究では, 効率的な3次元占有予測のためのスーパークワッドリックモデルであるQuadricFormerを紹介し, 占有領域におけるスーパークワッドリックの集中化によるモデリング効率の向上を目的としたプルーニング・アンド・スプリッティング・モジュールを提案する。
nuScenesデータセットに関する大規模な実験は、QuadricFormerが優れた効率を維持しながら最先端のパフォーマンスを達成することを示した。
関連論文リスト
- Self-Supervised Multi-Part Articulated Objects Modeling via Deformable Gaussian Splatting and Progressive Primitive Segmentation [23.18517560629462]
DeGSSは,物体を変形可能な3次元ガウス場として符号化し,幾何学,外観,動きを1つのコンパクト表現に埋め込む統一フレームワークである。
一般化とリアリズムを評価するために、合成PartNet-Mobilityベンチマークを拡張し、RGBキャプチャと正確にリバースエンジニアリングされた3Dモデルを組み合わせたリアル・トゥ・シムデータセットRS-Artをリリースする。
論文 参考訳(メタデータ) (2025-06-11T12:32:16Z) - GaussianFormer-2: Probabilistic Gaussian Superposition for Efficient 3D Occupancy Prediction [55.60972844777044]
3Dセマンティック占有予測は、堅牢な視覚中心の自律運転において重要な課題である。
既存のほとんどの手法は、密度の高いグリッドベースのシーン表現を利用しており、運転シーンの空間的空間性を見渡している。
本稿では,各ガウス分布をその周辺領域の確率分布として解釈する確率論的ガウス重ね合わせモデルを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:59:58Z) - SpaceMesh: A Continuous Representation for Learning Manifold Surface Meshes [61.110517195874074]
本稿では,ニューラルネットワークの出力として,複雑な接続性を持つ多様体多角形メッシュを直接生成する手法を提案する。
私たちの重要なイノベーションは、各メッシュで連続的な遅延接続空間を定義することです。
アプリケーションでは、このアプローチは生成モデルから高品質な出力を得るだけでなく、メッシュ修復のような挑戦的な幾何処理タスクを直接学習することを可能にする。
論文 参考訳(メタデータ) (2024-09-30T17:59:03Z) - VortSDF: 3D Modeling with Centroidal Voronoi Tesselation on Signed Distance Field [5.573454319150408]
四面体グリッド上での3次元形状特性を推定するために,明示的なSDFフィールドと浅いカラーネットワークを組み合わせた体積最適化フレームワークを提案する。
Chamfer統計による実験結果は、オブジェクト、オープンシーン、人間などの様々なシナリオにおいて、前例のない復元品質でこのアプローチを検証する。
論文 参考訳(メタデータ) (2024-07-29T09:46:39Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - OctField: Hierarchical Implicit Functions for 3D Modeling [18.488778913029805]
我々は3次元曲面の学習可能な階層的暗黙表現であるOctoFieldを提案し、メモリと計算予算の少ない複雑な曲面の高精度符号化を可能にする。
この目的を達成するために、曲面占有率と部分幾何学の豊かさに応じて3次元空間を適応的に分割する階層的オクツリー構造を導入する。
論文 参考訳(メタデータ) (2021-11-01T16:29:39Z) - Convolutional Occupancy Networks [88.48287716452002]
本稿では,オブジェクトと3Dシーンの詳細な再構築のための,より柔軟な暗黙的表現である畳み込み機能ネットワークを提案する。
畳み込みエンコーダと暗黙の占有デコーダを組み合わせることで、帰納的バイアスが組み込まれ、3次元空間における構造的推論が可能となる。
実験により,本手法は単一物体の微細な3次元再構成,大規模屋内シーンへのスケール,合成データから実データへの一般化を可能にした。
論文 参考訳(メタデータ) (2020-03-10T10:17:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。