論文の概要: SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2303.09551v2
- Date: Sun, 27 Aug 2023 15:33:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 00:36:40.665737
- Title: SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving
- Title(参考訳): SurroundOcc: 自律走行のためのマルチカメラ3D動作予測
- Authors: Yi Wei, Linqing Zhao, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu
- Abstract要約: 3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
- 参考スコア(独自算出の注目度): 98.74706005223685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D scene understanding plays a vital role in vision-based autonomous driving.
While most existing methods focus on 3D object detection, they have difficulty
describing real-world objects of arbitrary shapes and infinite classes. Towards
a more comprehensive perception of a 3D scene, in this paper, we propose a
SurroundOcc method to predict the 3D occupancy with multi-camera images. We
first extract multi-scale features for each image and adopt spatial 2D-3D
attention to lift them to the 3D volume space. Then we apply 3D convolutions to
progressively upsample the volume features and impose supervision on multiple
levels. To obtain dense occupancy prediction, we design a pipeline to generate
dense occupancy ground truth without expansive occupancy annotations.
Specifically, we fuse multi-frame LiDAR scans of dynamic objects and static
scenes separately. Then we adopt Poisson Reconstruction to fill the holes and
voxelize the mesh to get dense occupancy labels. Extensive experiments on
nuScenes and SemanticKITTI datasets demonstrate the superiority of our method.
Code and dataset are available at https://github.com/weiyithu/SurroundOcc
- Abstract(参考訳): 3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
既存のほとんどの手法は3次元オブジェクト検出に重点を置いているが、任意の形状と無限クラスの実世界のオブジェクトを記述することは困難である。
本稿では,より包括的な3Dシーンの認識に向けて,マルチカメラ画像を用いたSurroundOcc法を提案する。
まず,各画像のマルチスケール特徴を抽出し,空間的2d-3d注意を3dボリューム空間に持ち上げる。
次に、3Dコンボリューションを適用して、ボリューム機能を段階的にアップサンプし、複数のレベルを監督する。
密接な占有率予測を得るため,我々は、占有率の制約を拡げることなく、密接な占有基盤真理を生成するパイプラインを設計した。
具体的には、動的オブジェクトと静的シーンのマルチフレームLiDARスキャンを別々に融合する。
そして、穴を埋めるためにPoisson Reconstructionを採用し、メッシュを酸化して密度の高い占有ラベルを得る。
nuScenesとSemanticKITTIデータセットの大規模な実験により,本手法の優位性を実証した。
コードとデータセットはhttps://github.com/weiyithu/SurroundOccで入手できる。
関連論文リスト
- Regulating Intermediate 3D Features for Vision-Centric Autonomous
Driving [26.03800936700545]
本稿では,ボリュームレンダリングの助けを借りて,中間的な高密度な3次元特徴を規制することを提案する。
Occ3DデータセットとnuScenesデータセットの実験結果から、ヴァンパイアは密度の高い3D特徴の微細で適切な抽出を容易にすることが示された。
論文 参考訳(メタデータ) (2023-12-19T04:09:05Z) - SelfOcc: Self-Supervised Vision-Based 3D Occupancy Prediction [77.15924044466976]
本稿では,ビデオシーケンスのみを用いて,自己指導型3D習熟学習手法を提案する。
まず、画像を3D空間(例えば鳥の目視)に変換し、シーンの3D表現を得る。
そして、前と将来のフレームの2D画像を自己超越信号として描画し、3D表現を学習する。
論文 参考訳(メタデータ) (2023-11-21T17:59:14Z) - SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。
以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。
これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文 参考訳(メタデータ) (2023-08-26T07:38:21Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object
Detection [101.20784125067559]
本稿では,3次元物体検出の問題に対処するため,Halucinated Hollow-3D R-CNNという新しいアーキテクチャを提案する。
本稿では,まず,視点ビューと鳥眼ビューに点雲を逐次投影することで,多視点特徴を抽出する。
3Dオブジェクトは、新しい階層型Voxel RoIプール操作でボックスリファインメントモジュールを介して検出される。
論文 参考訳(メタデータ) (2021-07-30T02:00:06Z) - 3D Crowd Counting via Geometric Attention-guided Multi-View Fusion [50.520192402702015]
本稿では,3次元シーンレベルの密度マップと3次元特徴融合により,多視点群カウントタスクを解くことを提案する。
2D融合と比較すると、3D融合はz次元(高さ)に沿った人々のより多くの情報を抽出し、複数のビューにわたるスケールの変動に対処するのに役立つ。
3D密度マップは、和がカウントである2D密度マップの特性を保ちながら、群衆密度に関する3D情報も提供する。
論文 参考訳(メタデータ) (2020-03-18T11:35:11Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。