論文の概要: OCM3D: Object-Centric Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2104.06041v1
- Date: Tue, 13 Apr 2021 09:15:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:29:26.890398
- Title: OCM3D: Object-Centric Monocular 3D Object Detection
- Title(参考訳): OCM3D:オブジェクト中心のモノクロ3Dオブジェクト検出
- Authors: Liang Peng, Fei Liu, Senbo Yan, Xiaofei He, Deng Cai
- Abstract要約: モノクロ3次元物体検出のための新しい物体中心ボクセル表現を提案する。
具体的には、各オブジェクトの提案に基づいてボクセルを構築し、それらのサイズは点の3次元空間分布によって適応的に決定される。
本手法は、最先端の手法を大きなマージンで上回る。
- 参考スコア(独自算出の注目度): 35.804542148335706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-only and pseudo-LiDAR representations are commonly used for monocular
3D object detection. However, methods based on them have shortcomings of either
not well capturing the spatial relationships in neighbored image pixels or
being hard to handle the noisy nature of the monocular pseudo-LiDAR point
cloud. To overcome these issues, in this paper we propose a novel
object-centric voxel representation tailored for monocular 3D object detection.
Specifically, voxels are built on each object proposal, and their sizes are
adaptively determined by the 3D spatial distribution of the points, allowing
the noisy point cloud to be organized effectively within a voxel grid. This
representation is proved to be able to locate the object in 3D space
accurately. Furthermore, prior works would like to estimate the orientation via
deep features extracted from an entire image or a noisy point cloud. By
contrast, we argue that the local RoI information from the object image patch
alone with a proper resizing scheme is a better input as it provides complete
semantic clues meanwhile excludes irrelevant interferences. Besides, we
decompose the confidence mechanism in monocular 3D object detection by
considering the relationship between 3D objects and the associated 2D boxes.
Evaluated on KITTI, our method outperforms state-of-the-art methods by a large
margin. The code will be made publicly available soon.
- Abstract(参考訳): 画像のみと擬似LiDAR表現は、通常、モノクロ3Dオブジェクト検出に使用される。
しかし、それらの手法は、隣接する画像画素の空間的関係をうまく捉えていないか、あるいは単眼の擬似LiDAR点雲のノイズの性質を扱いにくいかの欠点がある。
この問題を克服するため,本稿では,モノクロ3次元物体検出のための新しい物体中心ボクセル表現を提案する。
具体的には、voxelは各オブジェクトの提案に基づいて構築され、そのサイズは点の3d空間分布によって適応的に決定され、ノイズ点雲をvoxelグリッド内で効果的に構成することができる。
この表現は、オブジェクトを正確に3次元空間に配置できることが証明されている。
さらに、以前の研究では、画像全体またはノイズの多い点雲から抽出された深い特徴を通して方向を推定したいと考えている。
対照的に、対象画像パッチからの局所的なRoI情報と適切なリサイズスキームは、無関係な干渉を排除しながら完全な意味的手がかりを提供するので、よりよい入力であると主張する。
さらに、3Dオブジェクトと関連する2Dボックスの関係を考慮し、3Dオブジェクト検出における信頼性機構を分解する。
提案手法はKITTIで評価され,最先端の手法よりも大きなマージンで優れている。
コードはまもなく公開される予定だ。
関連論文リスト
- 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Neural Correspondence Field for Object Pose Estimation [67.96767010122633]
1枚のRGB画像から3次元モデルで剛体物体の6DoFポーズを推定する手法を提案する。
入力画像の画素で3次元オブジェクト座標を予測する古典的対応法とは異なり,提案手法はカメラフラストラムでサンプリングされた3次元クエリポイントで3次元オブジェクト座標を予測する。
論文 参考訳(メタデータ) (2022-07-30T01:48:23Z) - SparseDet: Towards End-to-End 3D Object Detection [12.3069609175534]
ポイントクラウドからエンドツーエンドの3Dオブジェクト検出のためのSparseDetを提案する。
新しい検出パラダイムとして、SparseDetは遅延候補を表現するための学習可能な提案の固定セットを維持している。
SparseDetはより効率的な34.5 FPSで実行しながら高い競合検出精度を達成する。
論文 参考訳(メタデータ) (2022-06-02T09:49:53Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object
Detection [101.20784125067559]
本稿では,3次元物体検出の問題に対処するため,Halucinated Hollow-3D R-CNNという新しいアーキテクチャを提案する。
本稿では,まず,視点ビューと鳥眼ビューに点雲を逐次投影することで,多視点特徴を抽出する。
3Dオブジェクトは、新しい階層型Voxel RoIプール操作でボックスリファインメントモジュールを介して検出される。
論文 参考訳(メタデータ) (2021-07-30T02:00:06Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty
Propagation [4.202461384355329]
我々は,高密度な対応や幾何学を自己教師型で学習する,新しい3次元オブジェクト検出フレームワークMonoRUnを提案する。
提案手法は,KITTIベンチマークの最先端手法より優れている。
論文 参考訳(メタデータ) (2021-03-23T15:03:08Z) - Stereo Object Matching Network [78.35697025102334]
本稿では,画像からの2次元コンテキスト情報と3次元オブジェクトレベル情報の両方を利用するステレオオブジェクトマッチング手法を提案する。
コストボリューム空間における3次元オブジェクト性を扱うための新しい方法として, 選択的サンプリング (RoISelect) と 2D-3D 融合がある。
論文 参考訳(メタデータ) (2021-03-23T12:54:43Z) - Monocular Differentiable Rendering for Self-Supervised 3D Object
Detection [21.825158925459732]
単分子画像からの3次元物体検出は、深さとスケールの射影的絡み合いにより不適切な問題である。
テクスチャ化された3次元形状の再構成と剛体物体のポーズ推定のための新しい自己教師手法を提案する。
本手法は,画像中の物体の3次元位置とメッシュを,異なるレンダリングと自己教師対象を用いて予測する。
論文 参考訳(メタデータ) (2020-09-30T09:21:43Z) - Object-Aware Centroid Voting for Monocular 3D Object Detection [30.59728753059457]
本研究では, 深度を学習することなく, 終端から終端までトレーニング可能な単分子3次元物体検出器を提案する。
領域的外見の注意と幾何学的射影分布の両面を考慮した,新しいオブジェクト認識型投票手法が導入された。
遅延融合と予測される3D方向と次元により、オブジェクトの3D境界ボックスは単一のRGB画像から検出できる。
論文 参考訳(メタデータ) (2020-07-20T02:11:18Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。