論文の概要: Ground-aware Monocular 3D Object Detection for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2102.00690v1
- Date: Mon, 1 Feb 2021 08:18:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 15:48:26.103432
- Title: Ground-aware Monocular 3D Object Detection for Autonomous Driving
- Title(参考訳): 自動運転のための地上認識モノラル3次元物体検出
- Authors: Yuxuan Liu, Yuan Yixuan, Ming Liu
- Abstract要約: 1台のRGBカメラで環境中の物体の位置と向きを推定することは、低コストの都市自動運転と移動ロボットにとって難しい課題である。
既存のアルゴリズムのほとんどは、2D-3D対応における幾何学的制約に基づいており、これは一般的な6Dオブジェクトのポーズ推定に由来する。
深層学習の枠組みにおいて、そのようなアプリケーション固有の事前知識を完全に活用するための新しいニューラルネットワークモジュールを導入する。
- 参考スコア(独自算出の注目度): 6.5702792909006735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating the 3D position and orientation of objects in the environment with
a single RGB camera is a critical and challenging task for low-cost urban
autonomous driving and mobile robots. Most of the existing algorithms are based
on the geometric constraints in 2D-3D correspondence, which stems from generic
6D object pose estimation. We first identify how the ground plane provides
additional clues in depth reasoning in 3D detection in driving scenes. Based on
this observation, we then improve the processing of 3D anchors and introduce a
novel neural network module to fully utilize such application-specific priors
in the framework of deep learning. Finally, we introduce an efficient neural
network embedded with the proposed module for 3D object detection. We further
verify the power of the proposed module with a neural network designed for
monocular depth prediction. The two proposed networks achieve state-of-the-art
performances on the KITTI 3D object detection and depth prediction benchmarks,
respectively. The code will be published in
https://www.github.com/Owen-Liuyuxuan/visualDet3D
- Abstract(参考訳): 単一のRGBカメラで環境中の物体の3D位置と方向を推定することは、低コストの都市自動運転と移動ロボットにとって重要で困難な作業です。
既存のアルゴリズムのほとんどは、2D-3D対応における幾何学的制約に基づいており、これは一般的な6Dオブジェクトのポーズ推定に由来する。
まず、地上の飛行機が運転シーンで3D検出で深度推論のさらなる手がかりを提供する方法を特定します。
この観測に基づいて、3Dアンカーの処理を改善し、深層学習の枠組みにおいて、そのようなアプリケーション固有の先行を十分に活用する新しいニューラルネットワークモジュールを導入する。
最後に,提案する3次元物体検出モジュールを組み込んだ効率的なニューラルネットワークを提案する。
さらに,単眼深度予測用に設計されたニューラルネットワークを用いて,提案モジュールのパワーを検証した。
提案した2つのネットワークは,KITTIの3次元オブジェクト検出と深度予測のベンチマークでそれぞれ最先端の性能を達成している。
コードはhttps://www.github.com/Owen-Liuyuxuan/visualDet3Dで公開される。
関連論文リスト
- Neural Correspondence Field for Object Pose Estimation [67.96767010122633]
1枚のRGB画像から3次元モデルで剛体物体の6DoFポーズを推定する手法を提案する。
入力画像の画素で3次元オブジェクト座標を予測する古典的対応法とは異なり,提案手法はカメラフラストラムでサンプリングされた3次元クエリポイントで3次元オブジェクト座標を予測する。
論文 参考訳(メタデータ) (2022-07-30T01:48:23Z) - AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection [15.244852122106634]
形状認識型2D/3D制約を3D検出フレームワークに組み込む手法を提案する。
具体的には、ディープニューラルネットワークを用いて、2次元画像領域の区別された2Dキーポイントを学習する。
2D/3Dキーポイントの基礎的真理を生成するために、自動的なモデル適合手法が提案されている。
論文 参考訳(メタデータ) (2021-08-25T08:50:06Z) - VR3Dense: Voxel Representation Learning for 3D Object Detection and
Monocular Dense Depth Reconstruction [0.951828574518325]
3次元物体検出と単眼深層再構成ニューラルネットワークを共同トレーニングする方法を紹介します。
推論中に入力、LiDARポイントクラウド、単一のRGBイメージとして取得し、オブジェクトポーズ予測と密に再構築された深度マップを生成します。
物体検出は教師付き方式で訓練されるが,自己教師型と教師型の両方の損失関数を用いて深度予測ネットワークを訓練する。
論文 参考訳(メタデータ) (2021-04-13T04:25:54Z) - Categorical Depth Distribution Network for Monocular 3D Object Detection [7.0405916639906785]
モノラル3D検出の重要な課題は、物体の深度を正確に予測することです。
多くの手法は3次元検出を支援するために直接深度を推定しようとするが、深度不正確な結果、限られた性能を示す。
Categorical Depth Distribution Network (CADDN) を提案し、3次元空間の適切な深さ間隔にリッチなコンテキスト特徴情報を投影する。
提案手法をkitti 3d object detection benchmarkで検証し, 単項法のうち1位にランク付けした。
論文 参考訳(メタデータ) (2021-03-01T16:08:29Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z) - Stereo RGB and Deeper LIDAR Based Network for 3D Object Detection [40.34710686994996]
3Dオブジェクト検出は、自動運転のシナリオにおいて新たな課題となっている。
以前の作業では、プロジェクションベースまたはボクセルベースのモデルを使用して3Dポイントクラウドを処理していた。
本稿では,意味情報と空間情報の同時利用が可能なStereo RGBおよびDeeper LIDARフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-09T11:19:24Z) - End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection [62.34374949726333]
擬似LiDAR(PL)は、LiDARセンサに基づく手法と安価なステレオカメラに基づく手法の精度ギャップを劇的に減らした。
PLは最先端のディープニューラルネットワークと2D深度マップ出力を3Dポイントクラウド入力に変換することで3Dオブジェクト検出のための3D深度推定を組み合わせている。
我々は、PLパイプライン全体をエンドツーエンドにトレーニングできるように、差別化可能なRepresentation (CoR)モジュールに基づく新しいフレームワークを導入します。
論文 参考訳(メタデータ) (2020-04-07T02:18:38Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。