論文の概要: Neighbor-Vote: Improving Monocular 3D Object Detection through Neighbor
Distance Voting
- arxiv url: http://arxiv.org/abs/2107.02493v1
- Date: Tue, 6 Jul 2021 09:18:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 13:47:24.050259
- Title: Neighbor-Vote: Improving Monocular 3D Object Detection through Neighbor
Distance Voting
- Title(参考訳): Neighbor-Vote: 隣接投票による単眼3次元物体検出の改善
- Authors: Xiaomeng Chu, Jiajun Deng, Yao Li, Zhenxun Yuan, Yanyong Zhang,
Jianmin Ji and Yu Zhang
- Abstract要約: 本稿では、隣接する予測を組み込んで、高度に変形した擬似LiDAR点雲からの物体検出を改善する方法を提案する。
鳥の視線検出の成績は,特に難易度検出において,最先端の視線検出よりも大きなマージンで優れていた。
- 参考スコア(独自算出の注目度): 12.611269919468999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As cameras are increasingly deployed in new application domains such as
autonomous driving, performing 3D object detection on monocular images becomes
an important task for visual scene understanding. Recent advances on monocular
3D object detection mainly rely on the ``pseudo-LiDAR'' generation, which
performs monocular depth estimation and lifts the 2D pixels to pseudo 3D
points. However, depth estimation from monocular images, due to its poor
accuracy, leads to inevitable position shift of pseudo-LiDAR points within the
object. Therefore, the predicted bounding boxes may suffer from inaccurate
location and deformed shape. In this paper, we present a novel neighbor-voting
method that incorporates neighbor predictions to ameliorate object detection
from severely deformed pseudo-LiDAR point clouds. Specifically, each feature
point around the object forms their own predictions, and then the ``consensus''
is achieved through voting. In this way, we can effectively combine the
neighbors' predictions with local prediction and achieve more accurate 3D
detection. To further enlarge the difference between the foreground region of
interest (ROI) pseudo-LiDAR points and the background points, we also encode
the ROI prediction scores of 2D foreground pixels into the corresponding
pseudo-LiDAR points. We conduct extensive experiments on the KITTI benchmark to
validate the merits of our proposed method. Our results on the bird's eye view
detection outperform the state-of-the-art performance by a large margin,
especially for the ``hard'' level detection.
- Abstract(参考訳): カメラが自動運転などの新しいアプリケーションドメインに展開されるにつれて、モノクロ画像で3dオブジェクトを検出することは、視覚的なシーン理解にとって重要なタスクとなる。
近年のモノクロ3D物体検出の進歩は, モノクロ深度推定を行い, 擬似3D点まで2D画素を持ち上げる「擬似LiDAR」世代に大きく依存している。
しかし, 単眼画像からの深度推定は精度が低いため, 物体内部の擬似LiDAR点の位置ずれが避けられない。
したがって、予測された境界ボックスは、不正確な位置と変形した形状に苦しむ可能性がある。
本稿では, 隣接する予測を組み込んで, 高度に変形した擬似LiDAR点雲からの物体検出を改善する手法を提案する。
具体的には、オブジェクト周辺の各特徴点が独自の予測を形成し、その上で ``consensus''' が投票によって達成される。
このように、近隣の予測と局所的な予測を効果的に組み合わせ、より正確な3d検出を実現することができる。
さらに、関心領域(roi)擬似ライダー点と背景点との差をさらに拡大するため、2d前景画素のroi予測スコアを対応する擬似ライダー点に符号化する。
提案手法の有効性を検証するため,KITTIベンチマークで広範な実験を行った。
鳥の目視検出の結果は,特に`hard' レベルの検出において,最先端のパフォーマンスを大きなマージンで上回っている。
関連論文リスト
- Predict to Detect: Prediction-guided 3D Object Detection using
Sequential Images [15.51093009875854]
本稿では,予測スキームを検出フレームワークに統合した新しい3Dオブジェクト検出モデルP2Dを提案する。
P2Dは、過去のフレームのみを用いて現在のフレーム内のオブジェクト情報を予測し、時間的動きの特徴を学習する。
次に,予測対象情報に基づいて,バードアイビュー(Bird's-Eye-View,BEV)特徴を注意深く活用する時間的特徴集約手法を提案する。
論文 参考訳(メタデータ) (2023-06-14T14:22:56Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries [43.02373021724797]
マルチカメラ3Dオブジェクト検出のためのフレームワークを提案する。
本手法は3次元空間での予測を直接操作する。
我々はnuScenes自動運転ベンチマークで最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-10-13T17:59:35Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Delving into Localization Errors for Monocular 3D Object Detection [85.77319416168362]
単眼画像から3Dバウンディングボックスを推定することは、自動運転に不可欠な要素です。
本研究では, 各サブタスクがもたらす影響を定量化し, 局所化誤差を求めることが, モノクロ3次元検出の抑制に欠かせない要因である。
論文 参考訳(メタデータ) (2021-03-30T10:38:01Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - Categorical Depth Distribution Network for Monocular 3D Object Detection [7.0405916639906785]
モノラル3D検出の重要な課題は、物体の深度を正確に予測することです。
多くの手法は3次元検出を支援するために直接深度を推定しようとするが、深度不正確な結果、限られた性能を示す。
Categorical Depth Distribution Network (CADDN) を提案し、3次元空間の適切な深さ間隔にリッチなコンテキスト特徴情報を投影する。
提案手法をkitti 3d object detection benchmarkで検証し, 単項法のうち1位にランク付けした。
論文 参考訳(メタデータ) (2021-03-01T16:08:29Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - Object-Aware Centroid Voting for Monocular 3D Object Detection [30.59728753059457]
本研究では, 深度を学習することなく, 終端から終端までトレーニング可能な単分子3次元物体検出器を提案する。
領域的外見の注意と幾何学的射影分布の両面を考慮した,新しいオブジェクト認識型投票手法が導入された。
遅延融合と予測される3D方向と次元により、オブジェクトの3D境界ボックスは単一のRGB画像から検出できる。
論文 参考訳(メタデータ) (2020-07-20T02:11:18Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。