論文の概要: Is Pseudo-Lidar needed for Monocular 3D Object detection?
- arxiv url: http://arxiv.org/abs/2108.06417v1
- Date: Fri, 13 Aug 2021 22:22:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 15:16:55.980946
- Title: Is Pseudo-Lidar needed for Monocular 3D Object detection?
- Title(参考訳): Pseudo-Lidarはモノクロ3次元物体検出に必要か?
- Authors: Dennis Park, Rares Ambrus, Vitor Guizilini, Jie Li, Adrien Gaidon
- Abstract要約: 我々は,擬似ライダー法のような深度事前学習の恩恵を受けることができるエンド・ツー・エンドの単分子3次元物体検出器DD3Dを提案する。
我々のアーキテクチャは、深度推定と3次元検出の効果的な情報伝達のために設計されており、ラベルなし事前学習データの量でスケールすることができる。
- 参考スコア(独自算出の注目度): 32.772699246216774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in 3D object detection from single images leverages monocular
depth estimation as a way to produce 3D pointclouds, turning cameras into
pseudo-lidar sensors. These two-stage detectors improve with the accuracy of
the intermediate depth estimation network, which can itself be improved without
manual labels via large-scale self-supervised learning. However, they tend to
suffer from overfitting more than end-to-end methods, are more complex, and the
gap with similar lidar-based detectors remains significant. In this work, we
propose an end-to-end, single stage, monocular 3D object detector, DD3D, that
can benefit from depth pre-training like pseudo-lidar methods, but without
their limitations. Our architecture is designed for effective information
transfer between depth estimation and 3D detection, allowing us to scale with
the amount of unlabeled pre-training data. Our method achieves state-of-the-art
results on two challenging benchmarks, with 16.34% and 9.28% AP for Cars and
Pedestrians (respectively) on the KITTI-3D benchmark, and 41.5% mAP on
NuScenes.
- Abstract(参考訳): 単一画像からの3d物体検出の最近の進歩は、モノキュラー深度推定を3dポイントクラウドを生成する手段として活用し、カメラを擬似ライダーセンサーに変える。
これらの2段階検出器は、中間深度推定ネットワークの精度が向上し、大規模な自己教師付き学習によって手動ラベルなしでも改善できる。
しかし、それらはエンド・ツー・エンドの方法以上の過剰なフィッティングに苦しむ傾向にあり、より複雑であり、類似のlidarベースの検出器とのギャップは依然として大きい。
本研究では,エンドツーエンドの単眼型3d物体検出装置dd3dを提案し,擬似ライダー法のような奥行き事前学習の利点を享受するが,その限界はない。
我々のアーキテクチャは、深度推定と3次元検出の効果的な情報伝達のために設計されており、ラベルなし事前学習データの量でスケールすることができる。
提案手法は,kitti-3dベンチマークでは16.34%,歩行者では9.28%,裸では41.5%という,難易度の高い2つのベンチマークで最新の結果を得た。
関連論文リスト
- Toward Accurate Camera-based 3D Object Detection via Cascade Depth
Estimation and Calibration [20.82054596017465]
最近の3次元物体検出は、画像から3次元特徴空間への変換の精度によって制限されている。
本稿では,カメラを用いた3次元物体検出の基本的な課題である,正確な特徴持ち上げと物体位置決めのための深度情報を効果的に学習する方法を提案する。
論文 参考訳(メタデータ) (2024-02-07T14:21:26Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - SM3D: Simultaneous Monocular Mapping and 3D Detection [1.2183405753834562]
本稿では,同時マッピングと3次元検出のための,革新的で効率的なマルチタスク深層学習フレームワーク(SM3D)を提案する。
両モジュールのエンドツーエンドのトレーニングにより、提案したマッピングと3D検出は、最先端のベースラインを10.0%、精度13.2%で上回っている。
我々の単分子マルチタスクSM3Dは純粋なステレオ3D検出器の2倍以上の速度で、2つのモジュールを別々に使用するより18.3%速い。
論文 参考訳(メタデータ) (2021-11-24T17:23:37Z) - Anchor-free 3D Single Stage Detector with Mask-Guided Attention for
Point Cloud [79.39041453836793]
我々は、点雲をアンカーフリーで検出する新しい1段3次元検出器を開発した。
ボクセルをベースとしたスパース3D特徴量からスパース2D特徴量マップに変換することでこれを克服する。
検出信頼度スコアとバウンディングボックス回帰の精度との相関性を改善するために,IoUに基づく検出信頼度再校正手法を提案する。
論文 参考訳(メタデータ) (2021-08-08T13:42:13Z) - Geometry-aware data augmentation for monocular 3D object detection [18.67567745336633]
本稿では,自動運転システムにおける必須モジュールの一つであるモノキュラー3次元物体検出について述べる。
重要な課題は、深さ回復問題は単眼データに不備があることです。
我々は,既存の手法が,異なる幾何学的シフトが発生した場合の深さをロバストに推定できないことを明らかにするために,詳細な解析を行う。
上記の操作を,対応する4つの3D対応データ拡張手法に変換する。
論文 参考訳(メタデータ) (2021-04-12T23:12:48Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - Deep Continuous Fusion for Multi-Sensor 3D Object Detection [103.5060007382646]
本稿では,LIDARとカメラを併用して高精度な位置検出を実現する3Dオブジェクト検出器を提案する。
我々は,連続畳み込みを利用して画像とlidar特徴マップを異なるレベルの解像度で融合する,エンドツーエンド学習可能なアーキテクチャを設計した。
論文 参考訳(メタデータ) (2020-12-20T18:43:41Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Boundary-Aware Dense Feature Indicator for Single-Stage 3D Object
Detection from Point Clouds [32.916690488130506]
本稿では,3次元検出器が境界を意識して点雲の最も密集した領域に焦点を合わせるのを支援する普遍モジュールを提案する。
KITTIデータセットの実験により、DENFIはベースライン単段検出器の性能を著しく改善することが示された。
論文 参考訳(メタデータ) (2020-04-01T01:21:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。