論文の概要: SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection
- arxiv url: http://arxiv.org/abs/2308.13794v2
- Date: Sun, 10 Dec 2023 13:22:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 02:04:23.760060
- Title: SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection
- Title(参考訳): SOGDet:Semantic-Occupancy Guided Multi-view 3D Object Detection
- Authors: Qiu Zhou, Jinming Cao, Hanchao Leng, Yifang Yin, Yu Kun and Roger
Zimmermann
- Abstract要約: 本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。
以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。
これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
- 参考スコア(独自算出の注目度): 19.75965521357068
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the field of autonomous driving, accurate and comprehensive perception of
the 3D environment is crucial. Bird's Eye View (BEV) based methods have emerged
as a promising solution for 3D object detection using multi-view images as
input. However, existing 3D object detection methods often ignore the physical
context in the environment, such as sidewalk and vegetation, resulting in
sub-optimal performance. In this paper, we propose a novel approach called
SOGDet (Semantic-Occupancy Guided Multi-view 3D Object Detection), that
leverages a 3D semantic-occupancy branch to improve the accuracy of 3D object
detection. In particular, the physical context modeled by semantic occupancy
helps the detector to perceive the scenes in a more holistic view. Our SOGDet
is flexible to use and can be seamlessly integrated with most existing
BEV-based methods. To evaluate its effectiveness, we apply this approach to
several state-of-the-art baselines and conduct extensive experiments on the
exclusive nuScenes dataset. Our results show that SOGDet consistently enhance
the performance of three baseline methods in terms of nuScenes Detection Score
(NDS) and mean Average Precision (mAP). This indicates that the combination of
3D object detection and 3D semantic occupancy leads to a more comprehensive
perception of the 3D environment, thereby aiding build more robust autonomous
driving systems. The codes are available at: https://github.com/zhouqiu/SOGDet.
- Abstract(参考訳): 自動運転の分野では、3D環境の正確で包括的な認識が不可欠である。
Bird's Eye View (BEV) ベースの手法は、多視点画像を入力として使用する3Dオブジェクト検出のための有望なソリューションとして登場した。
しかし、既存の3Dオブジェクト検出手法は、歩道や植生などの環境の物理的文脈を無視することが多く、結果として準最適性能が得られる。
本稿では,sogdet(semantic-occupancy guided multi-view 3d object detection)と呼ばれる3次元意味空間枝を利用して3次元物体検出の精度を向上させる手法を提案する。
特に、意味的占有によってモデル化された物理的文脈は、検出器がより総合的な視点でシーンを認識するのに役立つ。
私たちのSOGDetは柔軟で、既存のほとんどのBEVベースのメソッドとシームレスに統合できます。
本手法の有効性を評価するため,いくつかの最先端ベースラインに適用し,排他的nuScenesデータセット上で広範囲な実験を行う。
以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。
これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
コードは、https://github.com/zhouqiu/SOGDet.comで入手できる。
関連論文リスト
- OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing [28.874014617259935]
マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。
本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T15:31:28Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - BEVDistill: Cross-Modal BEV Distillation for Multi-View 3D Object
Detection [17.526914782562528]
複数の画像ビューから3Dオブジェクトを検出することは、視覚的なシーン理解にとって難しい課題である。
マルチビュー3Dオブジェクト検出のためのクロスモーダルなBEV知識蒸留フレームワークである textbfBEVDistill を提案する。
我々の最良のモデルは、nuScenesテストリーダーボード上で59.4 NDSを達成し、様々な画像ベース検出器と比較して新しい最先端技術を達成する。
論文 参考訳(メタデータ) (2022-11-17T07:26:14Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - IAFA: Instance-aware Feature Aggregation for 3D Object Detection from a
Single Image [37.83574424518901]
単一の画像からの3Dオブジェクト検出は、自動運転において重要なタスクです。
本稿では,3次元物体検出の精度向上のために有用な情報を集約するインスタンス認識手法を提案する。
論文 参考訳(メタデータ) (2021-03-05T05:47:52Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。