論文の概要: Fully Sparse 3D Panoptic Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2312.17118v2
- Date: Fri, 29 Dec 2023 07:59:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 19:06:53.117815
- Title: Fully Sparse 3D Panoptic Occupancy Prediction
- Title(参考訳): 完全スパース3次元パノプティカル占有予測
- Authors: Haisong Liu, Haiguang Wang, Yang Chen, Zetong Yang, Jia Zeng, Li Chen,
Limin Wang
- Abstract要約: 運転予測は自動運転の領域において重要な役割を果たす。
従来の手法は、通常、シーン固有の空間を無視して、密度の高い3Dボリュームを構築する。
そこで本研究では,SparseOccと呼ばれる,完全スパースパノプティカル占有ネットワークについて紹介する。
我々は,Occ3D-nusデータセットにおいて,25.4FPSのリアルタイム推論速度を維持しつつ,平均的なmIoU(mIoU)を26.0で達成し,その有効性を実証した。
- 参考スコア(独自算出の注目度): 28.715419535031597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Occupancy prediction plays a pivotal role in the realm of autonomous driving.
Previous methods typically constructs a dense 3D volume, neglecting the
inherent sparsity of the scene, which results in a high computational cost.
Furthermore, these methods are limited to semantic occupancy and fail to
differentiate between distinct instances. To exploit the sparsity property and
ensure instance-awareness, we introduce a novel fully sparse panoptic occupancy
network, termed SparseOcc. SparseOcc initially reconstructs a sparse 3D
representation from visual inputs. Subsequently, it employs sparse instance
queries to predict each object instance from the sparse 3D representation.
These instance queries interact with 2D features via mask-guided sparse
sampling, thereby circumventing the need for costly dense features or global
attention. Additionally, we have established the first-ever vision-centric
panoptic occupancy benchmark. SparseOcc demonstrates its efficacy on the
Occ3D-nus dataset by achieving a mean Intersection over Union (mIoU) of 26.0,
while maintaining a real-time inference speed of 25.4 FPS. By incorporating
temporal modeling from the preceding 8 frames, SparseOcc further improves its
performance, achieving 30.9 mIoU without whistles and bells. Code will be made
available.
- Abstract(参考訳): 運転予測は自動運転の領域において重要な役割を果たす。
従来の手法では、通常、密集した3Dボリュームを構築し、シーン固有の空間を無視し、高い計算コストをもたらす。
さらに、これらの手法は意味的占有に限られており、異なるインスタンスを区別できない。
そこで本研究では,スパルスOccと呼ばれる,スパルスなパン光学占有ネットワークを新たに導入する。
SparseOccは最初、視覚入力からスパース3D表現を再構築する。
その後、スパースインスタンスクエリを使用して、スパース3D表現から各オブジェクトインスタンスを予測する。
これらのインスタンスクエリはマスク誘導スパースサンプリングを介して2次元特徴と相互作用するため、コストのかかる高密度特徴やグローバルな注意を回避できる。
さらに、視覚中心のpanoptic占有率ベンチマークを初めて確立しました。
SparseOccはその有効性をOcc3D-nusデータセットで示し、平均的な連邦間(mIoU)を26.0で達成し、リアルタイムの推論速度は25.4 FPSを維持した。
SparseOccは、前の8フレームから時間的モデリングを取り入れることで、その性能をさらに向上させ、30.9 mIoUをホイッスルやベルなしで達成した。
コードは利用可能になる。
関連論文リスト
- OccFlowNet: Towards Self-supervised Occupancy Estimation via
Differentiable Rendering and Occupancy Flow [0.6577148087211809]
本稿では,2次元ラベルのみを用いたニューラルレイディアンス場(NeRF)による占有率推定手法を提案する。
深度とセマンティックマップの予測や,2次元監視のみに基づく3次元ネットワークのトレーニングには,可変ボリュームレンダリングを用いる。
論文 参考訳(メタデータ) (2024-02-20T08:04:12Z) - PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic
Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。
また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。
プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文 参考訳(メタデータ) (2023-08-31T17:57:17Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous
Driving [34.368848580725576]
我々は,任意のシーンに対して,濃密で可視性に配慮したラベルを生成するラベル生成パイプラインを開発した。
このパイプラインは、ボクセルの密度化、推論、画像誘導ボクセル精製の3段階からなる。
我々は、Occ3Dベンチマークにおいて優れた性能を示すCTF-Occネットワークと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2023-04-27T17:40:08Z) - Fully Sparse Fusion for 3D Object Detection [91.28571584038467]
現在広く使われているマルチモーダル3D検出法は、通常、密度の高いBird-Eye-View特徴マップを使用するLiDARベースの検出器上に構築されている。
完全にスパースなアーキテクチャは、長距離知覚において非常に効率的であるため、注目を集めている。
本稿では,新たに出現するフルスパースアーキテクチャにおいて,画像のモダリティを効果的に活用する方法を検討する。
論文 参考訳(メタデータ) (2023-04-24T17:57:43Z) - Sparse Instance Activation for Real-Time Instance Segmentation [72.23597664935684]
本稿では,リアルタイムインスタンスセグメンテーションのための概念的・効率的・完全畳み込み型フレームワークを提案する。
SparseInstは非常に高速な推論速度を持ち、COCOベンチマークで40 FPSと37.9 APを達成した。
論文 参考訳(メタデータ) (2022-03-24T03:15:39Z) - P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose
Estimation [78.83305967085413]
本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。
提案手法は,パラメータが少なく,計算オーバーヘッドが少なく,最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-03-15T04:00:59Z) - Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion
Forecasting with a Single Convolutional Net [93.51773847125014]
本研究では,3Dセンサが捉えたデータを用いて,3D検出,追跡,動作予測を共同で推論する,新たなディープニューラルネットワークを提案する。
鳥の眼球を3次元の世界として表現し,空間と時間にまたがる3次元畳み込みを行う。
論文 参考訳(メタデータ) (2020-12-22T22:43:35Z) - Generative Sparse Detection Networks for 3D Single-shot Object Detection [43.91336826079574]
3Dオブジェクト検出は、ロボット工学や拡張現実など多くの有望な分野に適用可能であるため、広く研究されている。
しかし、3Dデータのまばらな性質は、このタスクに固有の課題をもたらしている。
本稿では,完全畳み込み単一ショットスパース検出ネットワークであるGenerative Sparse Detection Network (GSDN)を提案する。
論文 参考訳(メタデータ) (2020-06-22T15:54:24Z) - OccuSeg: Occupancy-aware 3D Instance Segmentation [39.71517989569514]
3D占有サイズ」とは、各インスタンスが占有するボクセルの数である。
OccuSegは、3Dインスタンスのセグメンテーションスキームである。
3つの実世界のデータセット上での“最先端のパフォーマンス”。
論文 参考訳(メタデータ) (2020-03-14T02:48:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。