論文の概要: ConQueR: Query Contrast Voxel-DETR for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2212.07289v1
- Date: Wed, 14 Dec 2022 15:44:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 17:46:55.288607
- Title: ConQueR: Query Contrast Voxel-DETR for 3D Object Detection
- Title(参考訳): ConQueR:3Dオブジェクト検出のためのクエリコントラストVoxel-DETR
- Authors: Benjin Zhu, Zhe Wang, Shaoshuai Shi, Hang Xu, Lanqing Hong, Hongsheng
Li
- Abstract要約: ConQueRは、挑戦的なOpenデータセット検証セットに基づいて、新しい最先端(ソータ)71.6 mAPH/L2を実現する。
当社のシングルフレームConQueRは、挑戦的なOpenデータセット検証セット上で、新しい最先端(ソータ)71.6 mAPH/L2を実現しています。
- 参考スコア(独自算出の注目度): 47.51610366092525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although DETR-based 3D detectors can simplify the detection pipeline and
achieve direct sparse predictions, their performance still lags behind dense
detectors with post-processing for 3D object detection from point clouds. DETRs
usually adopt a larger number of queries than GTs (e.g., 300 queries v.s. 40
objects in Waymo) in a scene, which inevitably incur many false positives
during inference. In this paper, we propose a simple yet effective sparse 3D
detector, named Query Contrast Voxel-DETR (ConQueR), to eliminate the
challenging false positives, and achieve more accurate and sparser predictions.
We observe that most false positives are highly overlapping in local regions,
caused by the lack of explicit supervision to discriminate locally similar
queries. We thus propose a Query Contrast mechanism to explicitly enhance
queries towards their best-matched GTs over all unmatched query predictions.
This is achieved by the construction of positive and negative GT-query pairs
for each GT, and a contrastive loss to enhance positive GT-query pairs against
negative ones based on feature similarities. ConQueR closes the gap of sparse
and dense 3D detectors, and reduces up to ~60% false positives. Our
single-frame ConQueR achieves new state-of-the-art (sota) 71.6 mAPH/L2 on the
challenging Waymo Open Dataset validation set, outperforming previous sota
methods (e.g., PV-RCNN++) by over 2.0 mAPH/L2.
- Abstract(参考訳): DETRベースの3D検出器は、検出パイプラインを単純化し、直接スパース予測を行うことができるが、その性能は、点雲から3D物体を検出するための後処理を伴う密度の高い検出器よりも遅れている。
DETRは通常、GTよりも多くのクエリ(例えばWaymoで300のクエリ対40のオブジェクト)をシーンで採用し、推論中に必然的に多くの偽陽性を発生させる。
本稿では,難解な偽陽性を排除し,より正確かつスペーサーな予測を実現するために,Query Contrast Voxel-DETR (ConQueR) というシンプルで効果的なスパース3D検出器を提案する。
我々は,局所的に類似したクエリを判別するための明示的な監督が欠如していることから,偽陽性が最も重なり合っていることを観察する。
そこで本稿では,全ての未整合クエリ予測に対して,最良整合GTに対してクエリを明示的に拡張するクエリコントラスト機構を提案する。
これは、各GTに対する正および負のGT-クエリ対の構築と、特徴類似性に基づく負のGT-クエリ対に対する正のGT-クエリ対を強化するための対照的な損失によって達成される。
ConQueRはスパースと密度の高い3D検出器のギャップを埋め、最大60%の偽陽性を減少させる。
当社のシングルフレームConQueRは、Waymo Open Datasetバリデーションセット上で、新たな最先端(ソータ)71.6 mAPH/L2を実現しています。
関連論文リスト
- SEED: A Simple and Effective 3D DETR in Point Clouds [72.74016394325675]
ポイントクラウドの分散度が高く,不均一な分布のため,主な課題は困難である,と我々は主張する。
点雲から3次元物体を検出するための簡便で効果的な3次元DETR法(SEED)を提案する。
論文 参考訳(メタデータ) (2024-07-15T14:21:07Z) - SparseLIF: High-Performance Sparse LiDAR-Camera Fusion for 3D Object Detection [5.916444315216411]
クエリベースのパラダイムは、明示的な高密度なBEV機能構築を伴わずに低レイテンシを採用するため、スパース3D検出器は大きな注目を集めている。
本稿では,エンドツーエンドのマルチモーダル3Dオブジェクト検出のための高性能フルスパース検出器を提案する。
論文提出時点では、SparseLIFはnuScenesデータセット上で最先端のパフォーマンスを達成しており、検証セットとテストベンチマークの両方で1位になっている。
論文 参考訳(メタデータ) (2024-03-12T03:34:03Z) - Ray Denoising: Depth-aware Hard Negative Sampling for Multi-view 3D
Object Detection [46.041193889845474]
レイデノジング(Ray Denoising)は、カメラ線に沿って戦略的にサンプリングすることで検出精度を高める革新的な手法である。
Ray Denoisingはプラグイン・アンド・プレイモジュールとして設計されており、DETR方式のマルチビュー3D検出器と互換性がある。
NuScenesデータセット上の最先端のStreamPETR法よりも平均精度(mAP)が1.9%向上した。
論文 参考訳(メタデータ) (2024-02-06T02:17:44Z) - V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - Hausdorff Distance Matching with Adaptive Query Denoising for Rotated Detection Transformer [4.137346786534721]
両部マッチングのためのハウスドルフ距離に基づくコストを導入し、予測と基底の真理との相違をより正確に定量化する。
本稿では,2部マッチングを用いた適応型問合せ記述手法を提案し,モデル改良から抽出した雑音付き問合せを選択的に除去する。
論文 参考訳(メタデータ) (2023-05-12T16:42:54Z) - Fully Sparse Fusion for 3D Object Detection [69.32694845027927]
現在広く使われているマルチモーダル3D検出法は、通常、密度の高いBird-Eye-View特徴マップを使用するLiDARベースの検出器上に構築されている。
完全にスパースなアーキテクチャは、長距離知覚において非常に効率的であるため、注目を集めている。
本稿では,新たに出現するフルスパースアーキテクチャにおいて,画像のモダリティを効果的に活用する方法を検討する。
論文 参考訳(メタデータ) (2023-04-24T17:57:43Z) - VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking [78.25819070166351]
完全スパース3次元物体検出のためのVoxelNextを提案する。
私たちの中核となる洞察は、手作りのプロキシに頼ることなく、スパースボクセル機能に基づいてオブジェクトを直接予測することです。
私たちの強力なスパース畳み込みネットワークVoxelNeXtは、voxelの機能を通して3Dオブジェクトを検出し、追跡します。
論文 参考訳(メタデータ) (2023-03-20T17:40:44Z) - Embracing Single Stride 3D Object Detector with Sparse Transformer [63.179720817019096]
自律走行のためのLiDARを用いた3次元物体検出では、物体サイズと入力シーンサイズとの比が2次元検出の場合に比べて有意に小さい。
多くの3D検出器は2D検出器の一般的な慣習に従っており、点雲の定量化後も特徴マップを分解する。
本稿では,SST(Single-stride Sparse Transformer)を提案する。
論文 参考訳(メタデータ) (2021-12-13T02:12:02Z) - MonoPair: Monocular 3D Object Detection Using Pairwise Spatial
Relationships [11.149904308044356]
そこで本研究では,一対のサンプルの関係を考慮し,モノラルな3次元物体検出を改良する手法を提案する。
具体的には,近接する物体対の物体位置と3次元距離の不確実性を考慮した予測を行う。
実験により,提案手法は,最先端の競合他社よりも広いマージンで性能を向上し,KITTI 3D検出ベンチマークで最高の性能が得られることが示された。
論文 参考訳(メタデータ) (2020-03-01T15:37:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。