論文の概要: A Simple Baseline for Multi-Camera 3D Object Detection
- arxiv url: http://arxiv.org/abs/2208.10035v1
- Date: Mon, 22 Aug 2022 03:38:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:29:24.647606
- Title: A Simple Baseline for Multi-Camera 3D Object Detection
- Title(参考訳): マルチカメラ3Dオブジェクト検出のための簡易ベースライン
- Authors: Yunpeng Zhang, Wenzhao Zheng, Zheng Zhu, Guan Huang, Jie Zhou, Jiwen
Lu
- Abstract要約: 周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 94.63944826540491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object detection with surrounding cameras has been a promising direction
for autonomous driving. In this paper, we present SimMOD, a Simple baseline for
Multi-camera Object Detection, to solve the problem. To incorporate multi-view
information as well as build upon previous efforts on monocular 3D object
detection, the framework is built on sample-wise object proposals and designed
to work in a two-stage manner. First, we extract multi-scale features and
generate the perspective object proposals on each monocular image. Second, the
multi-view proposals are aggregated and then iteratively refined with
multi-view and multi-scale visual features in the DETR3D-style. The refined
proposals are end-to-end decoded into the detection results. To further boost
the performance, we incorporate the auxiliary branches alongside the proposal
generation to enhance the feature learning. Also, we design the methods of
target filtering and teacher forcing to promote the consistency of two-stage
training. We conduct extensive experiments on the 3D object detection benchmark
of nuScenes to demonstrate the effectiveness of SimMOD and achieve new
state-of-the-art performance. Code will be available at
https://github.com/zhangyp15/SimMOD.
- Abstract(参考訳): 周囲カメラによる3d物体検出は、自動運転にとって有望な方向だった。
本稿では,マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
多視点情報と従来のモノクロ3Dオブジェクト検出への取り組みを構築するため、このフレームワークはサンプルワイドオブジェクトの提案に基づいて構築され、2段階的に動作するように設計されている。
まず,複数の特徴を抽出し,各単眼画像に対する視点オブジェクトの提案を生成する。
次に、マルチビューの提案を集約し、detr3dスタイルのマルチビューとマルチスケールのビジュアル機能で反復的に洗練する。
改良された提案は、エンドツーエンドで検出結果にデコードされる。
性能をさらに向上するため,提案生成と共に補助枝を組み込んで特徴学習を強化する。
また,2段階学習の一貫性を促進するために,目標フィルタリングと教師強制の方法も設計する。
nuScenesの3次元オブジェクト検出ベンチマークにおいて、SimMODの有効性を実証し、新しい最先端性能を実現するために広範囲にわたる実験を行った。
コードはhttps://github.com/zhangyp15/SimMOD.comで入手できる。
関連論文リスト
- SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and
Multi-View for 3D Object Retrieval [8.74845857766369]
大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。
本稿では,3次元オブジェクト検索のための点群と多視点画像の自己・横断的アグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-07-20T05:46:32Z) - AOP-Net: All-in-One Perception Network for Joint LiDAR-based 3D Object
Detection and Panoptic Segmentation [9.513467995188634]
AOP-NetはLiDARベースのマルチタスクフレームワークで、3Dオブジェクトの検出とパノプティクスのセグメンテーションを組み合わせたものである。
AOP-Netは、nuScenesベンチマークにおける3Dオブジェクト検出とパノプティクスセグメンテーションの両タスクについて、最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-02T05:31:53Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - BEVDistill: Cross-Modal BEV Distillation for Multi-View 3D Object
Detection [17.526914782562528]
複数の画像ビューから3Dオブジェクトを検出することは、視覚的なシーン理解にとって難しい課題である。
マルチビュー3Dオブジェクト検出のためのクロスモーダルなBEV知識蒸留フレームワークである textbfBEVDistill を提案する。
我々の最良のモデルは、nuScenesテストリーダーボード上で59.4 NDSを達成し、様々な画像ベース検出器と比較して新しい最先端技術を達成する。
論文 参考訳(メタデータ) (2022-11-17T07:26:14Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - IAFA: Instance-aware Feature Aggregation for 3D Object Detection from a
Single Image [37.83574424518901]
単一の画像からの3Dオブジェクト検出は、自動運転において重要なタスクです。
本稿では,3次元物体検出の精度向上のために有用な情報を集約するインスタンス認識手法を提案する。
論文 参考訳(メタデータ) (2021-03-05T05:47:52Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。