論文の概要: Fully Sparse 3D Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2312.17118v5
- Date: Fri, 19 Jul 2024 03:01:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 00:06:44.467085
- Title: Fully Sparse 3D Occupancy Prediction
- Title(参考訳): 完全スパース3次元活動予測
- Authors: Haisong Liu, Yang Chen, Haiguang Wang, Zetong Yang, Tianyu Li, Jia Zeng, Li Chen, Hongyang Li, Limin Wang,
- Abstract要約: 運転予測は自動運転において重要な役割を果たす。
従来の手法は通常、密集した3Dボリュームを構築し、シーン固有の空間を無視し、高い計算コストを被る。
我々は,SparseOccと呼ばれる,完全スパース占有ネットワークを新たに導入した。
SparseOccは最初、カメラのみの入力からスパース3D表現を再構築し、その後スパースクエリによって3Dスパース表現からセマンティック/インスタンス占有を予測する。
- 参考スコア(独自算出の注目度): 37.265473869812816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Occupancy prediction plays a pivotal role in autonomous driving. Previous methods typically construct dense 3D volumes, neglecting the inherent sparsity of the scene and suffering from high computational costs. To bridge the gap, we introduce a novel fully sparse occupancy network, termed SparseOcc. SparseOcc initially reconstructs a sparse 3D representation from camera-only inputs and subsequently predicts semantic/instance occupancy from the 3D sparse representation by sparse queries. A mask-guided sparse sampling is designed to enable sparse queries to interact with 2D features in a fully sparse manner, thereby circumventing costly dense features or global attention. Additionally, we design a thoughtful ray-based evaluation metric, namely RayIoU, to solve the inconsistency penalty along the depth axis raised in traditional voxel-level mIoU criteria. SparseOcc demonstrates its effectiveness by achieving a RayIoU of 34.0, while maintaining a real-time inference speed of 17.3 FPS, with 7 history frames inputs. By incorporating more preceding frames to 15, SparseOcc continuously improves its performance to 35.1 RayIoU without bells and whistles.
- Abstract(参考訳): 運転予測は自動運転において重要な役割を果たす。
従来の手法は通常、密集した3Dボリュームを構築し、シーン固有の空間を無視し、高い計算コストを被る。
ギャップを埋めるため,SparseOccと呼ばれる,スパルス占有ネットワークを導入した。
SparseOccは最初、カメラのみの入力からスパース3D表現を再構築し、その後スパースクエリによって3Dスパース表現からセマンティック/インスタンス占有を予測する。
マスク誘導スパースサンプリングは、スパースクエリが完全にスパースな方法で2次元特徴と対話できるように設計されており、それによってコストのかかる高密度特徴やグローバルな注意を回避できる。
さらに、従来のボクセルレベルのmIoU基準で提起された深さ軸に沿った不整合ペナルティを解決するために、レイIoUという思考に基づく評価尺度を設計する。
SparseOccは、34.0のRayIoUを実現し、リアルタイムの推論速度は17.3 FPSで、7つの履歴フレームが入力される。
より先行したフレームを15に組み込むことで、SparseOccは連続的に性能を35.1 RayIoUに改善した。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - SparseOcc: Rethinking Sparse Latent Representation for Vision-Based Semantic Occupancy Prediction [15.331332063879342]
我々はスパースポイントクラウド処理にインスパイアされた効率的な占有ネットワークであるSparseOccを提案する。
SparseOccは、密度の高いベースライン上のFLOPを74.9%減少させる。
また、12.8%から14.1%のmIOUまで精度が向上しており、これは部分的には空のボクセルに対する幻覚を回避できるスパース表現の能力に起因している。
論文 参考訳(メタデータ) (2024-04-15T06:45:06Z) - OccupancyDETR: Using DETR for Mixed Dense-sparse 3D Occupancy Prediction [10.87136340580404]
視覚に基づく3Dセマンティック占有感は、自動運転車を含むロボティクスにとって重要な技術である。
本稿では,DTRのような物体検出技術を用いた3次元意味的占有認識手法OccupancyDETRを提案する。
提案手法は, 効率と精度のバランスをとっており, より高速な推測時間, リソース消費の低減, 小型物体検出の性能向上を実現している。
論文 参考訳(メタデータ) (2023-09-15T16:06:23Z) - Ada3D : Exploiting the Spatial Redundancy with Adaptive Inference for
Efficient 3D Object Detection [19.321076175294902]
ボクセルに基づく手法は、自律運転における3次元物体検出の最先端性能を実現している。
それらの計算とメモリの大幅なコストは、資源に制約のある車両に適用する上での課題となる。
本稿では,入力レベルの空間冗長性を利用した適応型推論フレームワークAda3Dを提案する。
論文 参考訳(メタデータ) (2023-07-17T02:58:51Z) - Fully Sparse Fusion for 3D Object Detection [69.32694845027927]
現在広く使われているマルチモーダル3D検出法は、通常、密度の高いBird-Eye-View特徴マップを使用するLiDARベースの検出器上に構築されている。
完全にスパースなアーキテクチャは、長距離知覚において非常に効率的であるため、注目を集めている。
本稿では,新たに出現するフルスパースアーキテクチャにおいて,画像のモダリティを効果的に活用する方法を検討する。
論文 参考訳(メタデータ) (2023-04-24T17:57:43Z) - VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking [78.25819070166351]
完全スパース3次元物体検出のためのVoxelNextを提案する。
私たちの中核となる洞察は、手作りのプロキシに頼ることなく、スパースボクセル機能に基づいてオブジェクトを直接予測することです。
私たちの強力なスパース畳み込みネットワークVoxelNeXtは、voxelの機能を通して3Dオブジェクトを検出し、追跡します。
論文 参考訳(メタデータ) (2023-03-20T17:40:44Z) - OpenOccupancy: A Large Scale Benchmark for Surrounding Semantic
Occupancy Perception [73.05425657479704]
我々は,最初のセマンティック占有感評価ベンチマークであるOpenOccupancyを提案する。
大規模なnuScenesデータセットを拡張した。
周囲の占有感の複雑さを考慮し、粗い予測を洗練させるためにカスケード占領ネットワーク(CONET)を提案する。
論文 参考訳(メタデータ) (2023-03-07T15:43:39Z) - Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion
Forecasting with a Single Convolutional Net [93.51773847125014]
本研究では,3Dセンサが捉えたデータを用いて,3D検出,追跡,動作予測を共同で推論する,新たなディープニューラルネットワークを提案する。
鳥の眼球を3次元の世界として表現し,空間と時間にまたがる3次元畳み込みを行う。
論文 参考訳(メタデータ) (2020-12-22T22:43:35Z) - Generative Sparse Detection Networks for 3D Single-shot Object Detection [43.91336826079574]
3Dオブジェクト検出は、ロボット工学や拡張現実など多くの有望な分野に適用可能であるため、広く研究されている。
しかし、3Dデータのまばらな性質は、このタスクに固有の課題をもたらしている。
本稿では,完全畳み込み単一ショットスパース検出ネットワークであるGenerative Sparse Detection Network (GSDN)を提案する。
論文 参考訳(メタデータ) (2020-06-22T15:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。