論文の概要: Delving into the Pre-training Paradigm of Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2206.03657v1
- Date: Wed, 8 Jun 2022 03:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 13:58:20.083240
- Title: Delving into the Pre-training Paradigm of Monocular 3D Object Detection
- Title(参考訳): 単眼3次元物体検出の事前学習パラダイムへの展開
- Authors: Zhuoling Li, Chuanrui Zhang, En Yu, Haoqian Wang
- Abstract要約: 単分子3次元物体検出(M3OD)のための事前学習パラダイムについて検討する。
本稿では,このベースラインをさらに改善するためのいくつかの戦略を提案する。主に,目標とする半深度推定,キーポイント認識2Dオブジェクト検出,クラスレベルの損失調整などである。
開発したすべての技術を組み合わせることで、得られた事前学習フレームワークは、KITTI-3DおよびnuScenesベンチマーク上でM3OD性能を大幅に向上させる事前学習されたバックボーンを生成する。
- 参考スコア(独自算出の注目度): 10.07932482761621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The labels of monocular 3D object detection (M3OD) are expensive to obtain.
Meanwhile, there usually exists numerous unlabeled data in practical
applications, and pre-training is an efficient way of exploiting the knowledge
in unlabeled data. However, the pre-training paradigm for M3OD is hardly
studied. We aim to bridge this gap in this work. To this end, we first draw two
observations: (1) The guideline of devising pre-training tasks is imitating the
representation of the target task. (2) Combining depth estimation and 2D object
detection is a promising M3OD pre-training baseline. Afterwards, following the
guideline, we propose several strategies to further improve this baseline,
which mainly include target guided semi-dense depth estimation, keypoint-aware
2D object detection, and class-level loss adjustment. Combining all the
developed techniques, the obtained pre-training framework produces pre-trained
backbones that improve M3OD performance significantly on both the KITTI-3D and
nuScenes benchmarks. For example, by applying a DLA34 backbone to a naive
center-based M3OD detector, the moderate ${\rm AP}_{3D}70$ score of Car on the
KITTI-3D testing set is boosted by 18.71\% and the NDS score on the nuScenes
validation set is improved by 40.41\% relatively.
- Abstract(参考訳): 単眼的3次元物体検出(m3od)のラベルは、入手に費用がかかる。
一方、実用アプリケーションには通常多くのラベルなしデータが存在し、事前学習はラベルなしデータの知識を効果的に活用する方法である。
しかし、M3ODの事前学習パラダイムはほとんど研究されていない。
私たちはこの仕事のギャップを埋めることを目指している。
この目的のために,(1)事前学習タスクを考案するためのガイドラインは,対象タスクの表現を模倣することである。
2) 深度推定と2次元物体検出の組み合わせは,M3OD事前学習ベースラインとして有望である。
その後,本ガイドラインに従って,目標としたセミデンス深度推定,キーポイント認識2Dオブジェクト検出,クラスレベルの損失調整など,この基準線をさらに改善する戦略を提案する。
開発したすべての技術を組み合わせることで、得られた事前トレーニングフレームワークは、KITTI-3DとnuScenesベンチマークの両方でM3OD性能を大幅に向上させる事前トレーニングバックボーンを生成する。
例えば、ナイーブセンターベースのM3OD検出器にDLA34バックボーンを印加することにより、KITTI-3Dテストセット上の中程度の${\rm AP}_{3D}70$スコアを18.71\%引き上げ、nuScenes検証セット上のNDSスコアを40.41\%相対的に向上させる。
関連論文リスト
- AdvMono3D: Advanced Monocular 3D Object Detection with Depth-Aware
Robust Adversarial Training [64.14759275211115]
そこで本研究では,DART3Dと呼ばれるモノクル3次元物体検出のための,深度対応の頑健な対向学習法を提案する。
我々の敵の訓練アプローチは、本質的な不確実性に乗じて、敵の攻撃に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-03T07:05:32Z) - Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2023-03-15T15:14:00Z) - Introducing Depth into Transformer-based 3D Object Detection [24.224177932086455]
本稿では,カメラを用いた3次元検出のためのDepth-Aware Transformerフレームワークを提案する。
DATは,同じ設定下でnuScenes val上で+2.8 NDSを大幅に改善することを示す。
トレーニング済みのVoVNet-99をバックボーンとして使用する場合、DATはnuScenesテストで60.0 NDSと51.5 mAPの強い結果が得られる。
論文 参考訳(メタデータ) (2023-02-25T06:28:32Z) - Self-Supervised 3D Monocular Object Detection by Recycling Bounding
Boxes [3.3299316770988625]
本稿では, ランダムウィンドウをプレテキストタスクとしてラベル付けすることで, 自己教師付きバウンディングボックスリサイクルの確立について検討する。
また,mAP 3Dでは2~3%,BEVでは0.9~1.5%,SSLではベースラインスコアでは0.9~1.5%の改善が見られた。
論文 参考訳(メタデータ) (2022-06-25T21:48:43Z) - ST3D++: Denoised Self-training for Unsupervised Domain Adaptation on 3D
Object Detection [78.71826145162092]
本稿では,ST3D++という名前の自己学習手法を提案する。
擬似ラベル生成プロセスにハイブリット品質を意識した三重項メモリを組み込むことにより、生成された擬似ラベルの品質と安定性を向上させる。
モデルトレーニングの段階では、ソースデータ支援トレーニング戦略とカリキュラムデータ拡張ポリシーを提案する。
論文 参考訳(メタデータ) (2021-08-15T07:49:06Z) - Is Pseudo-Lidar needed for Monocular 3D Object detection? [32.772699246216774]
我々は,擬似ライダー法のような深度事前学習の恩恵を受けることができるエンド・ツー・エンドの単分子3次元物体検出器DD3Dを提案する。
我々のアーキテクチャは、深度推定と3次元検出の効果的な情報伝達のために設計されており、ラベルなし事前学習データの量でスケールすることができる。
論文 参考訳(メタデータ) (2021-08-13T22:22:51Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - ST3D: Self-training for Unsupervised Domain Adaptation on 3D
ObjectDetection [78.71826145162092]
点雲からの3次元物体検出における教師なし領域適応のための新しい領域適応型自己学習パイプラインST3Dを提案する。
当社のST3Dは、評価されたすべてのデータセットで最先端のパフォーマンスを達成し、KITTI 3Dオブジェクト検出ベンチマークで完全に監視された結果を超えます。
論文 参考訳(メタデータ) (2021-03-09T10:51:24Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。