論文の概要: SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2303.09551v1
- Date: Thu, 16 Mar 2023 17:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 14:08:58.472528
- Title: SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving
- Title(参考訳): SurroundOcc: 自律走行のためのマルチカメラ3D動作予測
- Authors: Yi Wei, Linqing Zhao, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu
- Abstract要約: 3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
- 参考スコア(独自算出の注目度): 93.91200272198947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D scene understanding plays a vital role in vision-based autonomous driving.
While most existing methods focus on 3D object detection, they have difficulty
describing real-world objects of arbitrary shapes and infinite classes. Towards
a more comprehensive perception of a 3D scene, in this paper, we propose a
SurroundOcc method to predict the 3D occupancy with multi-camera images. We
first extract multi-scale features for each image and adopt spatial 2D-3D
attention to lift them to the 3D volume space. Then we apply 3D convolutions to
progressively upsample the volume features and impose supervision on multiple
levels. To obtain dense occupancy prediction, we design a pipeline to generate
dense occupancy ground truth without expansive occupancy annotations.
Specifically, we fuse multi-frame LiDAR scans of dynamic objects and static
scenes separately. Then we adopt Poisson Reconstruction to fill the holes and
voxelize the mesh to get dense occupancy labels. Extensive experiments on
nuScenes and SemanticKITTI datasets demonstrate the superiority of our method.
Code and dataset are available at https://github.com/weiyithu/SurroundOcc
- Abstract(参考訳): 3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
既存のほとんどの手法は3次元オブジェクト検出に重点を置いているが、任意の形状と無限クラスの実世界のオブジェクトを記述することは困難である。
本稿では,より包括的な3Dシーンの認識に向けて,マルチカメラ画像を用いたSurroundOcc法を提案する。
まず,各画像のマルチスケール特徴を抽出し,空間的2d-3d注意を3dボリューム空間に持ち上げる。
次に、3Dコンボリューションを適用して、ボリューム機能を段階的にアップサンプし、複数のレベルを監督する。
密接な占有率予測を得るため,我々は、占有率の制約を拡げることなく、密接な占有基盤真理を生成するパイプラインを設計した。
具体的には、動的オブジェクトと静的シーンのマルチフレームLiDARスキャンを別々に融合する。
そして、穴を埋めるためにPoisson Reconstructionを採用し、メッシュを酸化して密度の高い占有ラベルを得る。
nuScenesとSemanticKITTIデータセットの大規模な実験により,本手法の優位性を実証した。
コードとデータセットはhttps://github.com/weiyithu/SurroundOccで入手できる。
関連論文リスト
- CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Learning 3D Object Shape and Layout without 3D Supervision [26.575177430506667]
3Dシーンはオブジェクトのセットで構成され、それぞれが空間における位置を与える形状とレイアウトを持つ。
本研究では,物体の3次元形状とレイアウトを,地平面形状やレイアウト情報なしで予測する手法を提案する。
我々のアプローチは、より小さく、より多様なデータセットで訓練された教師ありアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-06-14T17:49:44Z) - Gait Recognition in the Wild with Dense 3D Representations and A
Benchmark [86.68648536257588]
既存の歩行認識の研究は、制約されたシーンにおける人間の体のシルエットや骨格のような2D表現によって支配されている。
本稿では,野生における歩行認識のための高密度な3次元表現の探索を目的とする。
大規模な3D表現に基づく歩行認識データセットGait3Dを構築した。
論文 参考訳(メタデータ) (2022-04-06T03:54:06Z) - From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object
Detection [101.20784125067559]
本稿では,3次元物体検出の問題に対処するため,Halucinated Hollow-3D R-CNNという新しいアーキテクチャを提案する。
本稿では,まず,視点ビューと鳥眼ビューに点雲を逐次投影することで,多視点特徴を抽出する。
3Dオブジェクトは、新しい階層型Voxel RoIプール操作でボックスリファインメントモジュールを介して検出される。
論文 参考訳(メタデータ) (2021-07-30T02:00:06Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - Tracking Emerges by Looking Around Static Scenes, with Neural 3D Mapping [23.456046776979903]
本稿では,任意の場面(静的あるいは動的)における静止点のマルチビューデータを利用して,ニューラル3Dマッピングモジュールを学習することを提案する。
ニューラル3Dマッパーは、RGB-Dデータを入力として消費し、深い特徴の3Dボクセルグリッドを出力として生成する。
教師なし3Dオブジェクトトラッカーは、教師なし2Dと2.5Dのトラッカーよりも優れており、教師なし3Dオブジェクトトラッカーの精度に近づいていることを示す。
論文 参考訳(メタデータ) (2020-08-04T02:59:23Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。