論文の概要: SparseOcc: Rethinking Sparse Latent Representation for Vision-Based Semantic Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2404.09502v1
- Date: Mon, 15 Apr 2024 06:45:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 13:19:30.724058
- Title: SparseOcc: Rethinking Sparse Latent Representation for Vision-Based Semantic Occupancy Prediction
- Title(参考訳): SparseOcc:視覚に基づく意味的活動予測のためのスパース潜在表現の再考
- Authors: Pin Tang, Zhongdao Wang, Guoqing Wang, Jilai Zheng, Xiangxuan Ren, Bailan Feng, Chao Ma,
- Abstract要約: 我々はスパースポイントクラウド処理にインスパイアされた効率的な占有ネットワークであるSparseOccを提案する。
SparseOccは、密度の高いベースライン上のFLOPを74.9%減少させる。
また、12.8%から14.1%のmIOUまで精度が向上しており、これは部分的には空のボクセルに対する幻覚を回避できるスパース表現の能力に起因している。
- 参考スコア(独自算出の注目度): 15.331332063879342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-based perception for autonomous driving requires an explicit modeling of a 3D space, where 2D latent representations are mapped and subsequent 3D operators are applied. However, operating on dense latent spaces introduces a cubic time and space complexity, which limits scalability in terms of perception range or spatial resolution. Existing approaches compress the dense representation using projections like Bird's Eye View (BEV) or Tri-Perspective View (TPV). Although efficient, these projections result in information loss, especially for tasks like semantic occupancy prediction. To address this, we propose SparseOcc, an efficient occupancy network inspired by sparse point cloud processing. It utilizes a lossless sparse latent representation with three key innovations. Firstly, a 3D sparse diffuser performs latent completion using spatially decomposed 3D sparse convolutional kernels. Secondly, a feature pyramid and sparse interpolation enhance scales with information from others. Finally, the transformer head is redesigned as a sparse variant. SparseOcc achieves a remarkable 74.9% reduction on FLOPs over the dense baseline. Interestingly, it also improves accuracy, from 12.8% to 14.1% mIOU, which in part can be attributed to the sparse representation's ability to avoid hallucinations on empty voxels.
- Abstract(参考訳): 自律運転のための視覚に基づく知覚は、3次元空間の明示的なモデリングを必要とし、そこでは2次元潜在表現がマップされ、その後の3次元演算子が適用される。
しかし、密度の高い潜在空間上での操作は、知覚範囲や空間解像度の点でスケーラビリティを制限する3次時間と空間の複雑さをもたらす。
既存のアプローチは、Bird's Eye View (BEV) や Tri-Perspective View (TPV) のような投影を用いて、密度の高い表現を圧縮する。
これらのプロジェクションは効率的ではあるが、特にセマンティック占有率予測のようなタスクにおいて、情報損失をもたらす。
そこで我々は,スパースポイントクラウド処理にインスパイアされた効率的な占有ネットワークであるSparseOccを提案する。
3つの重要な革新と共に、損失のないスパースな潜在表現を利用する。
まず、3Dスパースディフューザは、空間的に分解された3Dスパース畳み込みカーネルを用いて遅延補完を行う。
第二に、特徴ピラミッドとスパース補間により、他人の情報によってスケールが向上する。
最後に、トランスヘッドはスパース変種として再設計される。
SparseOccは、密度の高いベースライン上のFLOPを74.9%減少させる。
興味深いことに、12.8%から14.1%のmIOUまで精度が向上しており、これは部分的には空のボクセルに対する幻覚を回避できるスパース表現の能力に起因している。
関連論文リスト
- GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - Fully Sparse 3D Occupancy Prediction [37.265473869812816]
運転予測は自動運転において重要な役割を果たす。
従来の手法は通常、密集した3Dボリュームを構築し、シーン固有の空間を無視し、高い計算コストを被る。
我々は,SparseOccと呼ばれる,完全スパース占有ネットワークを新たに導入した。
SparseOccは最初、カメラのみの入力からスパース3D表現を再構築し、その後スパースクエリによって3Dスパース表現からセマンティック/インスタンス占有を予測する。
論文 参考訳(メタデータ) (2023-12-28T16:54:53Z) - PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic
Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。
また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。
プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文 参考訳(メタデータ) (2023-08-31T17:57:17Z) - Ada3D : Exploiting the Spatial Redundancy with Adaptive Inference for
Efficient 3D Object Detection [19.321076175294902]
ボクセルに基づく手法は、自律運転における3次元物体検出の最先端性能を実現している。
それらの計算とメモリの大幅なコストは、資源に制約のある車両に適用する上での課題となる。
本稿では,入力レベルの空間冗長性を利用した適応型推論フレームワークAda3Dを提案する。
論文 参考訳(メタデータ) (2023-07-17T02:58:51Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - Exploiting More Information in Sparse Point Cloud for 3D Single Object
Tracking [9.693724357115762]
3Dオブジェクトトラッキングは、3Dコンピュータビジョンにおける重要なタスクである。
点雲の空間性は、類似性を計算し、対象を見つけるのを難しくする。
本稿では3次元オブジェクト追跡のためのスパース・トゥ・デンス・トランスフォーマー・ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-02T13:38:30Z) - Spatial Pruned Sparse Convolution for Efficient 3D Object Detection [41.62839541489369]
3Dシーンは多数のバックグラウンドポイントによって支配されており、主に前景オブジェクトにフォーカスする必要がある検出タスクには冗長である。
本稿では,既存の3D CNNの主要なコンポーネントを分析し,データの冗長性を無視し,さらにダウンサンプリングプロセスでそれを増幅することにより,余分な計算オーバーヘッドと不要な計算オーバーヘッドを発生させる。
SPS-ConvとSPSS-ConvとSPRSの2つの変種を含む新しい畳み込み演算子を提案する。
論文 参考訳(メタデータ) (2022-09-28T16:19:06Z) - From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object
Detection [101.20784125067559]
本稿では,3次元物体検出の問題に対処するため,Halucinated Hollow-3D R-CNNという新しいアーキテクチャを提案する。
本稿では,まず,視点ビューと鳥眼ビューに点雲を逐次投影することで,多視点特徴を抽出する。
3Dオブジェクトは、新しい階層型Voxel RoIプール操作でボックスリファインメントモジュールを介して検出される。
論文 参考訳(メタデータ) (2021-07-30T02:00:06Z) - Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion
Forecasting with a Single Convolutional Net [93.51773847125014]
本研究では,3Dセンサが捉えたデータを用いて,3D検出,追跡,動作予測を共同で推論する,新たなディープニューラルネットワークを提案する。
鳥の眼球を3次元の世界として表現し,空間と時間にまたがる3次元畳み込みを行う。
論文 参考訳(メタデータ) (2020-12-22T22:43:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。