論文の概要: Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing
- arxiv url: http://arxiv.org/abs/2310.11346v3
- Date: Mon, 25 Dec 2023 16:30:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 21:43:19.666320
- Title: Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing
- Title(参考訳): パースペクティブデバイアスによるマルチカメラ3次元物体検出の一般化に向けて
- Authors: Hao Lu, Yunpeng Zhang, Qing Lian, Dalong Du, Yingcong Chen
- Abstract要約: マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。
本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
- 参考スコア(独自算出の注目度): 28.874014617259935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting objects in 3D space using multiple cameras, known as Multi-Camera
3D Object Detection (MC3D-Det), has gained prominence with the advent of
bird's-eye view (BEV) approaches. However, these methods often struggle when
faced with unfamiliar testing environments due to the lack of diverse training
data encompassing various viewpoints and environments. To address this, we
propose a novel method that aligns 3D detection with 2D camera plane results,
ensuring consistent and accurate detections. Our framework, anchored in
perspective debiasing, helps the learning of features resilient to domain
shifts. In our approach, we render diverse view maps from BEV features and
rectify the perspective bias of these maps, leveraging implicit foreground
volumes to bridge the camera and BEV planes. This two-step process promotes the
learning of perspective- and context-independent features, crucial for accurate
object detection across varying viewpoints, camera parameters, and
environmental conditions. Notably, our model-agnostic approach preserves the
original network structure without incurring additional inference costs,
facilitating seamless integration across various models and simplifying
deployment. Furthermore, we also show our approach achieves satisfactory
results in real data when trained only with virtual datasets, eliminating the
need for real scene annotations. Experimental results on both Domain
Generalization (DG) and Unsupervised Domain Adaptation (UDA) clearly
demonstrate its effectiveness. The codes are available at
https://github.com/EnVision-Research/Generalizable-BEV.
- Abstract(参考訳): マルチカメラ(MC3D-Det)と呼ばれる複数のカメラを用いた3D空間の物体検出は,鳥眼ビュー(BEV)アプローチの出現によって注目されている。
しかし、これらの手法は、様々な視点や環境を含む多様なトレーニングデータが欠如しているため、慣れないテスト環境に直面している場合が多い。
そこで本研究では, 2次元カメラ平面による3次元検出を統一的かつ高精度に行う新しい手法を提案する。
私たちのフレームワークは、視点の偏りを保ち、ドメインシフトに耐性のある機能の学習に役立ちます。
提案手法では,BEVの特徴から多様なビューマップを描画し,これらのマップの視点バイアスを補正し,暗黙のフォアグラウンドボリュームを利用してカメラとBEV平面をブリッジする。
この2段階のプロセスは視点と文脈に依存しない特徴の学習を促進し、様々な視点、カメラパラメータ、環境条件の正確な物体検出に不可欠である。
特に、モデルに依存しないアプローチは、追加の推論コストを伴わずに元のネットワーク構造を保持し、さまざまなモデル間のシームレスな統合を促進し、デプロイを単純化します。
さらに本手法は,仮想データセットのみを用いてトレーニングした場合に,実際のデータで満足な結果が得られることを示す。
ドメイン一般化(DG)とUnsupervised Domain Adaptation(UDA)の両方の実験結果は、その効果を明らかに示している。
コードはhttps://github.com/EnVision-Research/Generalizable-BEVで入手できる。
関連論文リスト
- Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - VirtualPainting: Addressing Sparsity with Virtual Points and
Distance-Aware Data Augmentation for 3D Object Detection [3.5259183508202976]
本稿では,カメラ画像を用いた仮想LiDAR点の生成を含む革新的なアプローチを提案する。
また、画像ベースセグメンテーションネットワークから得られる意味ラベルを用いて、これらの仮想点を強化する。
このアプローチは、様々な3Dフレームワークと2Dセマンティックセグメンテーションメソッドにシームレスに統合できる汎用的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-12-26T18:03:05Z) - SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。
以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。
これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文 参考訳(メタデータ) (2023-08-26T07:38:21Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Towards Domain Generalization for Multi-view 3D Object Detection in
Bird-Eye-View [11.958753088613637]
まず,MV3D-Detタスクにおける領域ギャップの原因を解析する。
頑健な深度予測を得るために,カメラの内在パラメータから深度推定を分離する手法を提案する。
焦点長の値を変更して複数の擬似ドメインを作成し、敵の訓練損失を発生させ、特徴表現をよりドメインに依存しないものにするよう促す。
論文 参考訳(メタデータ) (2023-03-03T02:59:13Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - BirdNet+: End-to-End 3D Object Detection in LiDAR Bird's Eye View [117.44028458220427]
自動運転車のオンボード3Dオブジェクト検出は、LiDARデバイスが捉えた幾何学情報に依存することが多い。
本稿では,BEV画像のみから指向性3Dボックスを推測可能な,エンドツーエンドの3Dオブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-09T15:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。