Fugu-MT 論文翻訳(概要): A Simple Baseline for Multi-Camera 3D Object Detection

論文の概要: A Simple Baseline for Multi-Camera 3D Object Detection

arxiv url: http://arxiv.org/abs/2208.10035v1
Date: Mon, 22 Aug 2022 03:38:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-23 13:29:24.647606
Title: A Simple Baseline for Multi-Camera 3D Object Detection
Title（参考訳）: マルチカメラ3Dオブジェクト検出のための簡易ベースライン
Authors: Yunpeng Zhang, Wenzhao Zheng, Zheng Zhu, Guan Huang, Jie Zhou, Jiwen Lu
Abstract要約: 周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
参考スコア（独自算出の注目度）: 94.63944826540491
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D object detection with surrounding cameras has been a promising direction for autonomous driving. In this paper, we present SimMOD, a Simple baseline for Multi-camera Object Detection, to solve the problem. To incorporate multi-view information as well as build upon previous efforts on monocular 3D object detection, the framework is built on sample-wise object proposals and designed to work in a two-stage manner. First, we extract multi-scale features and generate the perspective object proposals on each monocular image. Second, the multi-view proposals are aggregated and then iteratively refined with multi-view and multi-scale visual features in the DETR3D-style. The refined proposals are end-to-end decoded into the detection results. To further boost the performance, we incorporate the auxiliary branches alongside the proposal generation to enhance the feature learning. Also, we design the methods of target filtering and teacher forcing to promote the consistency of two-stage training. We conduct extensive experiments on the 3D object detection benchmark of nuScenes to demonstrate the effectiveness of SimMOD and achieve new state-of-the-art performance. Code will be available at https://github.com/zhangyp15/SimMOD.
Abstract（参考訳）: 周囲カメラによる3d物体検出は、自動運転にとって有望な方向だった。本稿では,マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。多視点情報と従来のモノクロ3Dオブジェクト検出への取り組みを構築するため、このフレームワークはサンプルワイドオブジェクトの提案に基づいて構築され、2段階的に動作するように設計されている。まず,複数の特徴を抽出し,各単眼画像に対する視点オブジェクトの提案を生成する。次に、マルチビューの提案を集約し、detr3dスタイルのマルチビューとマルチスケールのビジュアル機能で反復的に洗練する。改良された提案は、エンドツーエンドで検出結果にデコードされる。性能をさらに向上するため,提案生成と共に補助枝を組み込んで特徴学習を強化する。また,2段階学習の一貫性を促進するために,目標フィルタリングと教師強制の方法も設計する。 nuScenesの3次元オブジェクト検出ベンチマークにおいて、SimMODの有効性を実証し、新しい最先端性能を実現するために広範囲にわたる実験を行った。コードはhttps://github.com/zhangyp15/SimMOD.comで入手できる。

関連論文リスト

MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection [28.319440934322728]
MV2DFusionは、高度なクエリベースの融合機構を通じて両方の世界の強みを統合するマルチモーダル検出フレームワークである。私たちのフレームワークの柔軟性は、任意のイメージとポイントクラウドベースの検出器との統合を可能にし、その適応性と将来の進歩の可能性を示しています。
論文参考訳（メタデータ） (2024-08-12T06:46:05Z)
Scaling Multi-Camera 3D Object Detection through Weak-to-Strong Eliciting [32.66151412557986]
本研究では,頑健な単分子知覚を維持しつつ,サラウンドリファインメントの強化を目的とした弱強誘引フレームワークを提案する。我々のフレームワークは、異なるサブセットで訓練された弱い調整された専門家を採用しており、それぞれが固有のカメラ構成やシナリオに偏っている。 MC3D-Detジョイントトレーニングでは、不整合カメラ数とカメラパラメータの問題を解決するために、詳細なデータセットマージ戦略が設計されている。
論文参考訳（メタデータ） (2024-04-10T03:11:10Z)
Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文参考訳（メタデータ） (2024-02-28T18:59:31Z)
SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and Multi-View for 3D Object Retrieval [8.74845857766369]
大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。本稿では,3次元オブジェクト検索のための点群と多視点画像の自己・横断的アグリゲーションを提案する。
論文参考訳（メタデータ） (2023-07-20T05:46:32Z)
AOP-Net: All-in-One Perception Network for Joint LiDAR-based 3D Object Detection and Panoptic Segmentation [9.513467995188634]
AOP-NetはLiDARベースのマルチタスクフレームワークで、3Dオブジェクトの検出とパノプティクスのセグメンテーションを組み合わせたものである。 AOP-Netは、nuScenesベンチマークにおける3Dオブジェクト検出とパノプティクスセグメンテーションの両タスクについて、最先端のパフォーマンスを達成している。
論文参考訳（メタデータ） (2023-02-02T05:31:53Z)
DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文参考訳（メタデータ） (2022-12-15T14:18:47Z)
BEVDistill: Cross-Modal BEV Distillation for Multi-View 3D Object Detection [17.526914782562528]
複数の画像ビューから3Dオブジェクトを検出することは、視覚的なシーン理解にとって難しい課題である。マルチビュー3Dオブジェクト検出のためのクロスモーダルなBEV知識蒸留フレームワークである textbfBEVDistill を提案する。我々の最良のモデルは、nuScenesテストリーダーボード上で59.4 NDSを達成し、様々な画像ベース検出器と比較して新しい最先端技術を達成する。
論文参考訳（メタデータ） (2022-11-17T07:26:14Z)
CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。 3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文参考訳（メタデータ） (2022-09-13T05:26:09Z)
BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文参考訳（メタデータ） (2022-05-19T17:55:35Z)
The Devil is in the Task: Exploiting Reciprocal Appearance-Localization Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。 DFR-Netという動的特徴反射ネットワークを導入する。我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文参考訳（メタデータ） (2021-12-28T07:31:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。