論文の概要: Ground Plane Matters: Picking Up Ground Plane Prior in Monocular 3D
Object Detection
- arxiv url: http://arxiv.org/abs/2211.01556v1
- Date: Thu, 3 Nov 2022 02:21:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 13:28:23.522520
- Title: Ground Plane Matters: Picking Up Ground Plane Prior in Monocular 3D
Object Detection
- Title(参考訳): 地平面問題:単眼3次元物体検出に先立って地平面を拾うこと
- Authors: Fan Yang, Xinhao Xu, Hui Chen, Yuchen Guo, Jungong Han, Kai Ni,
Guiguang Ding
- Abstract要約: 先行する地平面は、モノクル3次元物体検出(M3OD)における非常に情報的な幾何学的手がかりである
本稿では,両問題を一度に解決するGPENetを提案する。
我々のGPENetは、他の手法よりも優れ、最先端のパフォーマンスを実現し、提案手法の有効性と優位性を示すことができる。
- 参考スコア(独自算出の注目度): 92.75961303269548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ground plane prior is a very informative geometry clue in monocular 3D
object detection (M3OD). However, it has been neglected by most mainstream
methods. In this paper, we identify two key factors that limit the
applicability of ground plane prior: the projection point localization issue
and the ground plane tilt issue. To pick up the ground plane prior for M3OD, we
propose a Ground Plane Enhanced Network (GPENet) which resolves both issues at
one go. For the projection point localization issue, instead of using the
bottom vertices or bottom center of the 3D bounding box (BBox), we leverage the
object's ground contact points, which are explicit pixels in the image and easy
for the neural network to detect. For the ground plane tilt problem, our GPENet
estimates the horizon line in the image and derives a novel mathematical
expression to accurately estimate the ground plane equation. An unsupervised
vertical edge mining algorithm is also proposed to address the occlusion of the
horizon line. Furthermore, we design a novel 3D bounding box deduction method
based on a dynamic back projection algorithm, which could take advantage of the
accurate contact points and the ground plane equation. Additionally, using only
M3OD labels, contact point and horizon line pseudo labels can be easily
generated with NO extra data collection and label annotation cost. Extensive
experiments on the popular KITTI benchmark show that our GPENet can outperform
other methods and achieve state-of-the-art performance, well demonstrating the
effectiveness and the superiority of the proposed approach. Moreover, our
GPENet works better than other methods in cross-dataset evaluation on the
nuScenes dataset. Our code and models will be published.
- Abstract(参考訳): 接地平面は、単眼3次元物体検出(m3od)において非常に有益な幾何学的手がかりである。
しかし、ほとんどの主流の手法では無視されている。
本稿では,先行する接地面の適用性を制限する2つの重要な要因,すなわち投射点位置決め問題と接地面傾斜問題を特定する。
M3ODに先立って地上機を拾うために,両問題を一度に解決する地上機拡張ネットワーク(GPENet)を提案する。
3dバウンディングボックス(bbox)のボトム頂点やボトムセンターを使用する代わりに、画像中の明示的なピクセルであり、ニューラルネットワークが検出しやすいオブジェクトの接点を利用する。
地平面傾斜問題に対して、GPENetは画像の水平線を推定し、地平面方程式を正確に推定する新しい数学的表現を導出する。
水平線の閉塞に対処するために教師なし垂直エッジマイニングアルゴリズムも提案されている。
さらに, 高精度な接触点と接地平面方程式を活用できる動的バックプロジェクション法に基づいて, 新たな3次元バウンディングボックス推定法を考案した。
さらに、m3odラベルのみを使用することで、追加のデータ収集やラベルアノテーションコストなしで、コンタクトポイントとホライズラインの擬似ラベルを簡単に生成できる。
KITTIベンチマークの大規模な実験により、我々のGPENetは、他の手法よりも優れ、最先端のパフォーマンスを達成でき、提案手法の有効性と優位性を十分に示している。
さらに,我々のGPENetはnuScenesデータセットのクロスデータセット評価において,他の手法よりも優れている。
私たちのコードとモデルは公開されます。
関連論文リスト
- MVSDet: Multi-View Indoor 3D Object Detection via Efficient Plane Sweeps [51.44887282336391]
多視点屋内3次元物体検出の課題は、画像から正確な幾何学情報を推測して正確な3次元物体検出を行うことである。
それまでの手法は、幾何推論にNeRFに依存していた。
平面スイープを用いた3次元物体検出のためのMVSDetを提案する。
論文 参考訳(メタデータ) (2024-10-28T21:58:41Z) - AirPlanes: Accurate Plane Estimation via 3D-Consistent Embeddings [26.845588648999417]
本研究では,3次元画像から平面面を推定する問題に対処する。
本稿では,平面へのクラスタリングにおける幾何を補完する多視点一貫した平面埋め込みを予測する手法を提案する。
我々は、ScanNetV2データセットの広範な評価を通じて、我々の新しい手法が既存のアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2024-06-13T09:49:31Z) - MonoGround: Detecting Monocular 3D Objects from the Ground [14.225093154566439]
本研究では, 単分子3次元物体検出において, 地上面を先行として導入することを提案する。
地上平面は、不測のマッピングに対する追加の幾何学的条件として機能し、深度推定の余分な情報源として機能する。
提案手法は, 高速な動作を保ちながら, 他の手法と比較して, 最先端の結果を得ることができた。
論文 参考訳(メタデータ) (2022-06-15T08:27:46Z) - MonoDistill: Learning Spatial Features for Monocular 3D Object Detection [80.74622486604886]
本稿では,LiDAR信号からの空間情報を単分子3D検出器に導入するための簡易かつ効果的な手法を提案する。
得られたデータを用いて、ベースラインモデルと同じアーキテクチャで3D検出器をトレーニングする。
実験の結果,提案手法はベースラインモデルの性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-26T09:21:41Z) - Monocular Road Planar Parallax Estimation [25.36368935789501]
乾燥可能な表面および周囲環境の3次元構造を推定することは、補助的かつ自律的な運転にとって重要な課題である。
単眼画像からの3Dセンシングのための新しいディープニューラルネットワークであるRoad Planar Parallax Attention Network (RPANet)を提案する。
RPANetは、路面のホモグラフィに整列した一対の画像を入力として取り、3D再構成のための$gamma$mapを出力する。
論文 参考訳(メタデータ) (2021-11-22T10:03:41Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty
Propagation [4.202461384355329]
我々は,高密度な対応や幾何学を自己教師型で学習する,新しい3次元オブジェクト検出フレームワークMonoRUnを提案する。
提案手法は,KITTIベンチマークの最先端手法より優れている。
論文 参考訳(メタデータ) (2021-03-23T15:03:08Z) - Depth Completion using Piecewise Planar Model [94.0808155168311]
深度マップは一連の学習された基底で表現することができ、閉じた解法で効率的に解ける。
しかし、この方法の1つの問題は、色境界が深さ境界と矛盾する場合にアーチファクトを生成することである。
私たちは、より厳密な深度回復モデルを実行します。
論文 参考訳(メタデータ) (2020-12-06T07:11:46Z) - Object-Aware Centroid Voting for Monocular 3D Object Detection [30.59728753059457]
本研究では, 深度を学習することなく, 終端から終端までトレーニング可能な単分子3次元物体検出器を提案する。
領域的外見の注意と幾何学的射影分布の両面を考慮した,新しいオブジェクト認識型投票手法が導入された。
遅延融合と予測される3D方向と次元により、オブジェクトの3D境界ボックスは単一のRGB画像から検出できる。
論文 参考訳(メタデータ) (2020-07-20T02:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。