論文の概要: SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation
- arxiv url: http://arxiv.org/abs/2002.10111v1
- Date: Mon, 24 Feb 2020 08:15:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 04:06:33.534205
- Title: SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation
- Title(参考訳): スモーク:キーポイント推定による単眼3次元物体検出
- Authors: Zechen Liu, Zizhang Wu, Roland T\'oth
- Abstract要約: 3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
- 参考スコア(独自算出の注目度): 3.1542695050861544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating 3D orientation and translation of objects is essential for
infrastructure-less autonomous navigation and driving. In case of monocular
vision, successful methods have been mainly based on two ingredients: (i) a
network generating 2D region proposals, (ii) a R-CNN structure predicting 3D
object pose by utilizing the acquired regions of interest. We argue that the 2D
detection network is redundant and introduces non-negligible noise for 3D
detection. Hence, we propose a novel 3D object detection method, named SMOKE,
in this paper that predicts a 3D bounding box for each detected object by
combining a single keypoint estimate with regressed 3D variables. As a second
contribution, we propose a multi-step disentangling approach for constructing
the 3D bounding box, which significantly improves both training convergence and
detection accuracy. In contrast to previous 3D detection techniques, our method
does not require complicated pre/post-processing, extra data, and a refinement
stage. Despite of its structural simplicity, our proposed SMOKE network
outperforms all existing monocular 3D detection methods on the KITTI dataset,
giving the best state-of-the-art result on both 3D object detection and Bird's
eye view evaluation. The code will be made publicly available.
- Abstract(参考訳): 3次元の方向推定とオブジェクトの変換は、インフラストラクチャレスの自律ナビゲーションと運転に不可欠である。
単眼視の場合、成功法は主に2つの要素に基づいている。
i) 2次元領域の提案を生成するネットワーク
(ii)取得した領域を利用して3dオブジェクトのポーズを予測するr−cnn構造。
2次元検出ネットワークは冗長であり、3次元検出に不要なノイズを導入する。
そこで本論文では,1つのキーポイント推定値と回帰3次元変数を組み合わせることで,検出対象毎に3次元境界ボックスを予測する新しい3次元物体検出法であるsmokeを提案する。
第2の貢献として, 3dバウンディングボックスの構築において, 学習収束と検出精度の両立を著しく改善する多段階分離手法を提案する。
従来の3次元検出技術とは対照的に, 複雑な前処理, 余分なデータ, 改良段階を必要としない。
その構造的単純さにもかかわらず、提案するスモークネットワークはkittiデータセット上の既存のモノキュラー3d検出手法を上回っており、3dオブジェクト検出と鳥の目視評価の両方において最高の最先端の結果を与えている。
コードは公開される予定だ。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。
以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。
これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文 参考訳(メタデータ) (2023-08-26T07:38:21Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - Categorical Depth Distribution Network for Monocular 3D Object Detection [7.0405916639906785]
モノラル3D検出の重要な課題は、物体の深度を正確に予測することです。
多くの手法は3次元検出を支援するために直接深度を推定しようとするが、深度不正確な結果、限られた性能を示す。
Categorical Depth Distribution Network (CADDN) を提案し、3次元空間の適切な深さ間隔にリッチなコンテキスト特徴情報を投影する。
提案手法をkitti 3d object detection benchmarkで検証し, 単項法のうち1位にランク付けした。
論文 参考訳(メタデータ) (2021-03-01T16:08:29Z) - Ground-aware Monocular 3D Object Detection for Autonomous Driving [6.5702792909006735]
1台のRGBカメラで環境中の物体の位置と向きを推定することは、低コストの都市自動運転と移動ロボットにとって難しい課題である。
既存のアルゴリズムのほとんどは、2D-3D対応における幾何学的制約に基づいており、これは一般的な6Dオブジェクトのポーズ推定に由来する。
深層学習の枠組みにおいて、そのようなアプリケーション固有の事前知識を完全に活用するための新しいニューラルネットワークモジュールを導入する。
論文 参考訳(メタデータ) (2021-02-01T08:18:24Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Object-Aware Centroid Voting for Monocular 3D Object Detection [30.59728753059457]
本研究では, 深度を学習することなく, 終端から終端までトレーニング可能な単分子3次元物体検出器を提案する。
領域的外見の注意と幾何学的射影分布の両面を考慮した,新しいオブジェクト認識型投票手法が導入された。
遅延融合と予測される3D方向と次元により、オブジェクトの3D境界ボックスは単一のRGB画像から検出できる。
論文 参考訳(メタデータ) (2020-07-20T02:11:18Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。