論文の概要: UniMODE: Unified Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2402.18573v2
- Date: Fri, 26 Apr 2024 07:38:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 17:18:42.259479
- Title: UniMODE: Unified Monocular 3D Object Detection
- Title(参考訳): UniMODE:Unified Monocular 3D Object Detection
- Authors: Zhuoling Li, Xiaogang Xu, SerNam Lim, Hengshuang Zhao,
- Abstract要約: 我々は,鳥眼視(BEV)検出パラダイムに基づく検出器を構築した。
本稿では,この課題に起因する収束不安定性に対応するために,不均一なBEVグリッド設計を提案する。
統一検出器UniMODEが導出され、挑戦的なOmni3Dデータセットの先行技術を上回る。
- 参考スコア(独自算出の注目度): 70.27631528933482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Realizing unified monocular 3D object detection, including both indoor and outdoor scenes, holds great importance in applications like robot navigation. However, involving various scenarios of data to train models poses challenges due to their significantly different characteristics, e.g., diverse geometry properties and heterogeneous domain distributions. To address these challenges, we build a detector based on the bird's-eye-view (BEV) detection paradigm, where the explicit feature projection is beneficial to addressing the geometry learning ambiguity when employing multiple scenarios of data to train detectors. Then, we split the classical BEV detection architecture into two stages and propose an uneven BEV grid design to handle the convergence instability caused by the aforementioned challenges. Moreover, we develop a sparse BEV feature projection strategy to reduce computational cost and a unified domain alignment method to handle heterogeneous domains. Combining these techniques, a unified detector UniMODE is derived, which surpasses the previous state-of-the-art on the challenging Omni3D dataset (a large-scale dataset including both indoor and outdoor scenes) by 4.9% AP_3D, revealing the first successful generalization of a BEV detector to unified 3D object detection.
- Abstract(参考訳): 屋内と屋外の両方のシーンを含む、統一されたモノクル3Dオブジェクト検出を実現することは、ロボットナビゲーションのようなアプリケーションにおいて非常に重要である。
しかし、トレーニングモデルにデータの様々なシナリオを組み込むことは、例えば、様々な幾何学的性質や不均一な領域分布など、その特性が著しく異なるため、課題を提起する。
これらの課題に対処するため,鳥眼視(BEV)検出パラダイムに基づく検出器を構築した。
次に,従来のBEV検出アーキテクチャを2段階に分割し,上記の課題に起因する収束不安定性に対処する不均一なBEVグリッド設計を提案する。
さらに、計算コストを削減するためのスパースなBEV特徴予測戦略と、異種ドメインを扱うための統一されたドメインアライメント手法を開発する。
これらの技術を組み合わせて、統一検出器UniMODEが導出され、挑戦的なOmni3Dデータセット(屋内と屋外の両方を含む大規模なデータセット)を4.9%のAP_3Dで上回った。
関連論文リスト
- VirtualPainting: Addressing Sparsity with Virtual Points and
Distance-Aware Data Augmentation for 3D Object Detection [3.5259183508202976]
本稿では,カメラ画像を用いた仮想LiDAR点の生成を含む革新的なアプローチを提案する。
また、画像ベースセグメンテーションネットワークから得られる意味ラベルを用いて、これらの仮想点を強化する。
このアプローチは、様々な3Dフレームワークと2Dセマンティックセグメンテーションメソッドにシームレスに統合できる汎用的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-12-26T18:03:05Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing [28.874014617259935]
マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。
本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T15:31:28Z) - 3D Adversarial Augmentations for Robust Out-of-Domain Predictions [115.74319739738571]
ドメイン外データへの一般化の改善に注力する。
対象を逆向きに変形させるベクトルの集合を学習する。
本研究では,学習したサンプル非依存ベクトルをモデルトレーニング時に利用可能なオブジェクトに適用することにより,対数拡大を行う。
論文 参考訳(メタデータ) (2023-08-29T17:58:55Z) - OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection [29.530177591608297]
マルチビュー3Dオブジェクト検出は、高い有効性と低コストのため、自動運転において人気を博している。
現在の最先端検出器のほとんどは、クエリベースのバードアイビュー(BEV)パラダイムに従っている。
本稿では,移動対象の時間的・空間的手がかりをより効率的に彫ることができるOCBEVを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:59:48Z) - Towards Domain Generalization for Multi-view 3D Object Detection in
Bird-Eye-View [11.958753088613637]
まず,MV3D-Detタスクにおける領域ギャップの原因を解析する。
頑健な深度予測を得るために,カメラの内在パラメータから深度推定を分離する手法を提案する。
焦点長の値を変更して複数の擬似ドメインを作成し、敵の訓練損失を発生させ、特徴表現をよりドメインに依存しないものにするよう促す。
論文 参考訳(メタデータ) (2023-03-03T02:59:13Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - Unsupervised Domain Adaptation for Monocular 3D Object Detection via
Self-Training [57.25828870799331]
我々は、Mono3D上での教師なしドメイン適応のための新しい自己学習フレームワークSTMono3Dを提案する。
対象ドメイン上で適応的な擬似ラベルを生成するための教師学生パラダイムを開発する。
STMono3Dは、評価されたすべてのデータセットで顕著なパフォーマンスを達成し、KITTI 3Dオブジェクト検出データセットの完全な教師付き結果を超えています。
論文 参考訳(メタデータ) (2022-04-25T12:23:07Z) - ST3D: Self-training for Unsupervised Domain Adaptation on 3D
ObjectDetection [78.71826145162092]
点雲からの3次元物体検出における教師なし領域適応のための新しい領域適応型自己学習パイプラインST3Dを提案する。
当社のST3Dは、評価されたすべてのデータセットで最先端のパフォーマンスを達成し、KITTI 3Dオブジェクト検出ベンチマークで完全に監視された結果を超えます。
論文 参考訳(メタデータ) (2021-03-09T10:51:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。