論文の概要: CubifAE-3D: Monocular Camera Space Cubification for Auto-Encoder based
3D Object Detection
- arxiv url: http://arxiv.org/abs/2006.04080v2
- Date: Tue, 26 Jan 2021 16:29:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 07:47:08.348578
- Title: CubifAE-3D: Monocular Camera Space Cubification for Auto-Encoder based
3D Object Detection
- Title(参考訳): CubifAE-3D:オートエンコーダによる3次元物体検出のための単眼カメラ空間の空洞化
- Authors: Shubham Shrivastava and Punarjay Chakravarty
- Abstract要約: 単眼画像を用いた3次元物体検出手法を提案する。
シミュレーションデータから,ペアRGBと深度画像を用いてAEを事前訓練し,その後実データを用いて3DODネットワークをトレーニングする。
我々の3DODネットワークは、カメラ周囲の3D空間の特定のキュビフィケーション(cubification)を利用しており、それぞれのキュビイドは、クラスと信頼値とともに、Nオブジェクトのポーズを予測する。
- 参考スコア(独自算出の注目度): 8.134961550216618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a method for 3D object detection using a single monocular image.
Starting from a synthetic dataset, we pre-train an RGB-to-Depth Auto-Encoder
(AE). The embedding learnt from this AE is then used to train a 3D Object
Detector (3DOD) CNN which is used to regress the parameters of 3D object poses
after the encoder from the AE generates a latent embedding from the RGB image.
We show that we can pre-train the AE using paired RGB and depth images from
simulation data once and subsequently only train the 3DOD network using real
data, comprising of RGB images and 3D object pose labels (without the
requirement of dense depth). Our 3DOD network utilizes a particular
`cubification' of 3D space around the camera, where each cuboid is tasked with
predicting N object poses, along with their class and confidence values. The AE
pre-training and this method of dividing the 3D space around the camera into
cuboids give our method its name - CubifAE-3D. We demonstrate results for
monocular 3D object detection in the Autonomous Vehicle (AV) use-case with the
Virtual KITTI 2 and the KITTI datasets.
- Abstract(参考訳): 単眼画像を用いた3次元物体検出手法を提案する。
合成データセットから始めて、RGBからDepth Auto-Encoder (AE)を事前訓練する。
このAEから学習した埋め込みは、3Dオブジェクト検出器(3DOD)CNNのトレーニングに使用され、AEからエンコーダがRGB画像から潜伏埋め込みを生成すると、3Dオブジェクトポーズのパラメータを回帰するために使用される。
シミュレーションデータからペアRGBと深度画像を用いてAEを事前訓練し,RGB画像と3Dオブジェクトポーズラベルからなる実データを用いて3DODネットワークを訓練する(深度を必要とせずに)。
我々の3DODネットワークは、カメラ周囲の3D空間の特定の「キュビフィケーション」を利用しており、それぞれのキューブは、クラスと信頼値とともに、Nオブジェクトのポーズを予測する。
AEプリトレーニングと、カメラの周囲の3D空間をキュービイドに分割する方法は、私たちのメソッドにCubeifAE-3Dという名前を与えます。
仮想kitti 2とkittiデータセットを用いた自律走行車(av)における単眼3次元物体検出の結果を示す。
関連論文リスト
- Tracking Objects with 3D Representation from Videos [57.641129788552675]
P3DTrackと呼ばれる新しい2次元多目的追跡パラダイムを提案する。
モノクロビデオにおける擬似3Dオブジェクトラベルからの3次元オブジェクト表現学習により,P3DTrackと呼ばれる新しい2次元MOTパラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:58:45Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - Neural Correspondence Field for Object Pose Estimation [67.96767010122633]
1枚のRGB画像から3次元モデルで剛体物体の6DoFポーズを推定する手法を提案する。
入力画像の画素で3次元オブジェクト座標を予測する古典的対応法とは異なり,提案手法はカメラフラストラムでサンプリングされた3次元クエリポイントで3次元オブジェクト座標を予測する。
論文 参考訳(メタデータ) (2022-07-30T01:48:23Z) - AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection [15.244852122106634]
形状認識型2D/3D制約を3D検出フレームワークに組み込む手法を提案する。
具体的には、ディープニューラルネットワークを用いて、2次元画像領域の区別された2Dキーポイントを学習する。
2D/3Dキーポイントの基礎的真理を生成するために、自動的なモデル適合手法が提案されている。
論文 参考訳(メタデータ) (2021-08-25T08:50:06Z) - Ground-aware Monocular 3D Object Detection for Autonomous Driving [6.5702792909006735]
1台のRGBカメラで環境中の物体の位置と向きを推定することは、低コストの都市自動運転と移動ロボットにとって難しい課題である。
既存のアルゴリズムのほとんどは、2D-3D対応における幾何学的制約に基づいており、これは一般的な6Dオブジェクトのポーズ推定に由来する。
深層学習の枠組みにおいて、そのようなアプリケーション固有の事前知識を完全に活用するための新しいニューラルネットワークモジュールを導入する。
論文 参考訳(メタデータ) (2021-02-01T08:18:24Z) - E3D: Event-Based 3D Shape Reconstruction [19.823758341937605]
3D形状の再構築は、拡張現実/仮想現実の主要なコンポーネントです。
RGB、RGB-Dおよびライダーのセンサーに基づく前の解決は力およびデータ集中的です。
我々は,イベントカメラ,低消費電力センサ,レイテンシ,データ費用の3次元再構成にアプローチした。
論文 参考訳(メタデータ) (2020-12-09T18:23:21Z) - Expandable YOLO: 3D Object Detection from RGB-D Images [64.14512458954344]
本稿では,ステレオカメラから深度とカラー画像を入力する軽量物体検出器の構築を目的とする。
YOLOv3のネットワークアーキテクチャを中央から3Dに拡張することにより、深さ方向の出力が可能となる。
領域抽出結果の精度を確認するため、3次元空間におけるユニノン(IoU)の切断を導入する。
論文 参考訳(メタデータ) (2020-06-26T07:32:30Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z) - Atlas: End-to-End 3D Scene Reconstruction from Posed Images [13.154808583020229]
RGB画像の集合からTSDF(truncated signed distance function)を直接回帰することにより,シーンのエンドツーエンドな3D再構成手法を提案する。
2D CNNは、各画像から特徴を独立して抽出し、その特徴をバックプロジェクションし、ボクセルボリュームに蓄積する。
3D CNNは蓄積した特徴を洗練し、TSDF値を予測する。
論文 参考訳(メタデータ) (2020-03-23T17:59:15Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。