論文の概要: Fully Sparse 3D Panoptic Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2312.17118v1
- Date: Thu, 28 Dec 2023 16:54:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 15:37:29.345248
- Title: Fully Sparse 3D Panoptic Occupancy Prediction
- Title(参考訳): 完全スパース3次元パノプティカル占有予測
- Authors: Haisong Liu, Haiguang Wang, Yang Chen, Zetong Yang, Jia Zeng, Li Chen,
Limin Wang
- Abstract要約: 運転予測は自動運転の領域において重要な役割を果たす。
従来の手法は、通常、シーン固有の空間を無視して、密度の高い3Dボリュームを構築する。
そこで本研究では,SparseOccと呼ばれる,完全スパースパノプティカル占有ネットワークについて紹介する。
我々は,Occ3D-nusデータセットにおいて,25.4FPSのリアルタイム推論速度を維持しつつ,平均的なmIoU(mIoU)を26.0で達成し,その有効性を実証した。
- 参考スコア(独自算出の注目度): 28.715419535031597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Occupancy prediction plays a pivotal role in the realm of autonomous driving.
Previous methods typically constructs a dense 3D volume, neglecting the
inherent sparsity of the scene, which results in a high computational cost.
Furthermore, these methods are limited to semantic occupancy and fail to
differentiate between distinct instances. To exploit the sparsity property and
ensure instance-awareness, we introduce a novel fully sparse panoptic occupancy
network, termed SparseOcc. SparseOcc initially reconstructs a sparse 3D
representation from visual inputs. Subsequently, it employs sparse instance
queries to predict each object instance from the sparse 3D representation.
These instance queries interact with 2D features via mask-guided sparse
sampling, thereby circumventing the need for costly dense features or global
attention. Additionally, we have established the first-ever vision-centric
panoptic occupancy benchmark. SparseOcc demonstrates its efficacy on the
Occ3D-nus dataset by achieving a mean Intersection over Union (mIoU) of 26.0,
while maintaining a real-time inference speed of 25.4 FPS. By incorporating
temporal modeling from the preceding 8 frames, SparseOcc further improves its
performance, achieving 30.9 mIoU without whistles and bells. Code will be made
available.
- Abstract(参考訳): 運転予測は自動運転の領域において重要な役割を果たす。
従来の手法では、通常、密集した3Dボリュームを構築し、シーン固有の空間を無視し、高い計算コストをもたらす。
さらに、これらの手法は意味的占有に限られており、異なるインスタンスを区別できない。
そこで本研究では,スパルスOccと呼ばれる,スパルスなパン光学占有ネットワークを新たに導入する。
SparseOccは最初、視覚入力からスパース3D表現を再構築する。
その後、スパースインスタンスクエリを使用して、スパース3D表現から各オブジェクトインスタンスを予測する。
これらのインスタンスクエリはマスク誘導スパースサンプリングを介して2次元特徴と相互作用するため、コストのかかる高密度特徴やグローバルな注意を回避できる。
さらに、視覚中心のpanoptic占有率ベンチマークを初めて確立しました。
SparseOccはその有効性をOcc3D-nusデータセットで示し、平均的な連邦間(mIoU)を26.0で達成し、リアルタイムの推論速度は25.4 FPSを維持した。
SparseOccは、前の8フレームから時間的モデリングを取り入れることで、その性能をさらに向上させ、30.9 mIoUをホイッスルやベルなしで達成した。
コードは利用可能になる。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - SparseOcc: Rethinking Sparse Latent Representation for Vision-Based Semantic Occupancy Prediction [15.331332063879342]
我々はスパースポイントクラウド処理にインスパイアされた効率的な占有ネットワークであるSparseOccを提案する。
SparseOccは、密度の高いベースライン上のFLOPを74.9%減少させる。
また、12.8%から14.1%のmIOUまで精度が向上しており、これは部分的には空のボクセルに対する幻覚を回避できるスパース表現の能力に起因している。
論文 参考訳(メタデータ) (2024-04-15T06:45:06Z) - OccupancyDETR: Using DETR for Mixed Dense-sparse 3D Occupancy Prediction [10.87136340580404]
視覚に基づく3Dセマンティック占有感は、自動運転車を含むロボティクスにとって重要な技術である。
本稿では,DTRのような物体検出技術を用いた3次元意味的占有認識手法OccupancyDETRを提案する。
提案手法は, 効率と精度のバランスをとっており, より高速な推測時間, リソース消費の低減, 小型物体検出の性能向上を実現している。
論文 参考訳(メタデータ) (2023-09-15T16:06:23Z) - Ada3D : Exploiting the Spatial Redundancy with Adaptive Inference for
Efficient 3D Object Detection [19.321076175294902]
ボクセルに基づく手法は、自律運転における3次元物体検出の最先端性能を実現している。
それらの計算とメモリの大幅なコストは、資源に制約のある車両に適用する上での課題となる。
本稿では,入力レベルの空間冗長性を利用した適応型推論フレームワークAda3Dを提案する。
論文 参考訳(メタデータ) (2023-07-17T02:58:51Z) - Fully Sparse Fusion for 3D Object Detection [69.32694845027927]
現在広く使われているマルチモーダル3D検出法は、通常、密度の高いBird-Eye-View特徴マップを使用するLiDARベースの検出器上に構築されている。
完全にスパースなアーキテクチャは、長距離知覚において非常に効率的であるため、注目を集めている。
本稿では,新たに出現するフルスパースアーキテクチャにおいて,画像のモダリティを効果的に活用する方法を検討する。
論文 参考訳(メタデータ) (2023-04-24T17:57:43Z) - VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking [78.25819070166351]
完全スパース3次元物体検出のためのVoxelNextを提案する。
私たちの中核となる洞察は、手作りのプロキシに頼ることなく、スパースボクセル機能に基づいてオブジェクトを直接予測することです。
私たちの強力なスパース畳み込みネットワークVoxelNeXtは、voxelの機能を通して3Dオブジェクトを検出し、追跡します。
論文 参考訳(メタデータ) (2023-03-20T17:40:44Z) - OpenOccupancy: A Large Scale Benchmark for Surrounding Semantic
Occupancy Perception [73.05425657479704]
我々は,最初のセマンティック占有感評価ベンチマークであるOpenOccupancyを提案する。
大規模なnuScenesデータセットを拡張した。
周囲の占有感の複雑さを考慮し、粗い予測を洗練させるためにカスケード占領ネットワーク(CONET)を提案する。
論文 参考訳(メタデータ) (2023-03-07T15:43:39Z) - Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion
Forecasting with a Single Convolutional Net [93.51773847125014]
本研究では,3Dセンサが捉えたデータを用いて,3D検出,追跡,動作予測を共同で推論する,新たなディープニューラルネットワークを提案する。
鳥の眼球を3次元の世界として表現し,空間と時間にまたがる3次元畳み込みを行う。
論文 参考訳(メタデータ) (2020-12-22T22:43:35Z) - Generative Sparse Detection Networks for 3D Single-shot Object Detection [43.91336826079574]
3Dオブジェクト検出は、ロボット工学や拡張現実など多くの有望な分野に適用可能であるため、広く研究されている。
しかし、3Dデータのまばらな性質は、このタスクに固有の課題をもたらしている。
本稿では,完全畳み込み単一ショットスパース検出ネットワークであるGenerative Sparse Detection Network (GSDN)を提案する。
論文 参考訳(メタデータ) (2020-06-22T15:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。