論文の概要: Co-Fix3D: Enhancing 3D Object Detection with Collaborative Refinement
- arxiv url: http://arxiv.org/abs/2408.07999v1
- Date: Thu, 15 Aug 2024 07:56:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 14:36:26.653605
- Title: Co-Fix3D: Enhancing 3D Object Detection with Collaborative Refinement
- Title(参考訳): Co-Fix3D:コラボレーティブリファインメントによる3次元物体検出の強化
- Authors: Wenxuan Li, Qin Zou, Chi Chen, Bo Du, Long Chen,
- Abstract要約: Co-Fix3Dは、BEV表現のための協調的なマルチステージ並列クエリ生成機構を採用している。
提案手法では,BEV機能を改良し,弱い正のサンプルをより効果的に強調するLGEモジュールを組み込んだ。
Co-Fix3Dは、stringent nuScenesベンチマークで優れた結果を得る。
- 参考スコア(独自算出の注目度): 33.773644087620745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of autonomous driving,accurately detecting occluded or distant objects,referred to as weak positive sample ,presents significant challenges. These challenges predominantly arise during query initialization, where an over-reliance on heatmap confidence often results in a high rate of false positives, consequently masking weaker detections and impairing system performance. To alleviate this issue, we propose a novel approach, Co-Fix3D, which employs a collaborative hybrid multi-stage parallel query generation mechanism for BEV representations. Our method incorporates the Local-Global Feature Enhancement (LGE) module, which refines BEV features to more effectively highlight weak positive samples. It uniquely leverages the Discrete Wavelet Transform (DWT) for accurate noise reduction and features refinement in localized areas, and incorporates an attention mechanism to more comprehensively optimize global BEV features. Moreover, our method increases the volume of BEV queries through a multi-stage parallel processing of the LGE, significantly enhancing the probability of selecting weak positive samples. This enhancement not only improves training efficiency within the decoder framework but also boosts overall system performance. Notably, Co-Fix3D achieves superior results on the stringent nuScenes benchmark, outperforming all previous models with a 69.1% mAP and 72.9% NDS on the LiDAR-based benchmark, and 72.3% mAP and 74.1% NDS on the multi-modality benchmark, without relying on test-time augmentation or additional datasets. The source code will be made publicly available upon acceptance.
- Abstract(参考訳): 自律運転の領域では、隠蔽された物体や遠方の物体を正確に検出し、弱い正のサンプルとして評価すると、重大な課題が示される。
これらの課題は主にクエリ初期化時に発生し、ヒートマップの信頼性の過度な信頼性は、しばしば偽陽性の頻度を高くし、結果として弱い検出とシステム性能の低下を隠蔽する。
この問題を軽減するために,BEV表現のための協調型マルチステージ並列クエリ生成機構であるCo-Fix3Dを提案する。
提案手法では,BEV機能を改良し,弱い正のサンプルをより効果的に強調するLGEモジュールを組み込んだ。
離散ウェーブレット変換(DWT)を高精度なノイズ低減に利用し、ローカライズされた領域における改善を特徴とし、グローバルなBEV機能をより包括的に最適化するアテンションメカニズムを取り入れている。
さらに,LGEの多段並列処理によりBEVクエリのボリュームを増大させ,弱い正のサンプルを選択する確率を大幅に向上させる。
この強化により、デコーダフレームワーク内のトレーニング効率が向上するだけでなく、システム全体のパフォーマンスも向上する。
特に、Co-Fix3Dは、厳密なnuScenesベンチマークにおいて、テスト時間拡張や追加データセットに頼ることなく、LiDARベンチマークで69.1%のmAPと72.9%のNDS、マルチモダリティベンチマークで72.3%のmAPと74.1%のNDSで、以前のすべてのモデルよりも優れた結果を得る。
ソースコードは受理時に公開されます。
関連論文リスト
- GAFusion: Adaptive Fusing LiDAR and Camera with Multiple Guidance for 3D Object Detection [36.37236815038332]
GAFusion と呼ばれる,LiDAR による大域的相互作用と適応融合を備えた新しい多モード3Dオブジェクト検出法を提案する。
GAFusionは73.6$%$mAPと74.9$%$NDSで最先端の3Dオブジェクト検出結果を達成する。
論文 参考訳(メタデータ) (2024-11-01T03:40:24Z) - GOOD: General Optimization-based Fusion for 3D Object Detection via
LiDAR-Camera Object Candidates [10.534984939225014]
3次元物体検出は、自律運転における知覚タスクの中核となる基礎となる。
Goodは汎用的な最適化ベースの融合フレームワークで、追加のモデルをトレーニングすることなく、満足度の高い検出を実現できる。
nuScenesとKITTIデータセットの両方の実験を行い、その結果、GOODはPointPillarsと比較してmAPスコアで9.1%上回っていることが示された。
論文 参考訳(メタデータ) (2023-03-17T07:05:04Z) - SSDA3D: Semi-supervised Domain Adaptation for 3D Object Detection from
Point Cloud [125.9472454212909]
本稿では,3次元物体検出(SSDA3D)のための半改良型領域適応法を提案する。
SSDA3Dはドメイン間適応ステージとドメイン内一般化ステージを含む。
実験の結果,10%のラベル付きターゲットデータしか持たないSSDA3Dは,100%のターゲットラベルを持つ完全教師付きオラクルモデルを上回ることができることがわかった。
論文 参考訳(メタデータ) (2022-12-06T09:32:44Z) - 3DLG-Detector: 3D Object Detection via Simultaneous Local-Global Feature
Learning [15.995277437128452]
不規則点雲の局所的・大域的特徴の捕獲は3次元物体検出に不可欠である(3OD)
本稿では,3ODを肯定的に利用するシーンポイント雲の局所的な特徴を同時に学習するモジュールについて検討する。
局所的特徴学習(3DLG-Detector)を併用した効果的な3ODネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-31T12:23:40Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。