論文の概要: Co-Fix3D: Enhancing 3D Object Detection with Collaborative Refinement
- arxiv url: http://arxiv.org/abs/2408.07999v2
- Date: Fri, 15 Nov 2024 04:09:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:36:03.742406
- Title: Co-Fix3D: Enhancing 3D Object Detection with Collaborative Refinement
- Title(参考訳): Co-Fix3D:コラボレーティブリファインメントによる3次元物体検出の強化
- Authors: Wenxuan Li, Qin Zou, Chi Chen, Bo Du, Long Chen, Jian Zhou, Hongkai Yu,
- Abstract要約: 運転シナリオにおける3次元物体検出は、複雑な道路環境の課題に直面している。
我々はCo-Fix3Dと呼ばれる高度な検出フレームワークを提案する。
Co-Fix3DはLocal and Global Enhancement (LGE)モジュールを統合し、Bird's Eye View (BEV)機能を洗練する。
- 参考スコア(独自算出の注目度): 37.24731059950228
- License:
- Abstract: 3D object detection in driving scenarios faces the challenge of complex road environments, which can lead to the loss or incompleteness of key features, thereby affecting perception performance. To address this issue, we propose an advanced detection framework called Co-Fix3D. Co-Fix3D integrates Local and Global Enhancement (LGE) modules to refine Bird's Eye View (BEV) features. The LGE module uses Discrete Wavelet Transform (DWT) for pixel-level local optimization and incorporates an attention mechanism for global optimization. To handle varying detection difficulties, we adopt multi-head LGE modules, enabling each module to focus on targets with different levels of detection complexity, thus further enhancing overall perception capability. Experimental results show that on the nuScenes dataset's LiDAR benchmark, Co-Fix3D achieves 69.4\% mAP and 73.5\% NDS, while on the multimodal benchmark, it achieves 72.3\% mAP and 74.7\% NDS. The source code is publicly available at \href{https://github.com/rubbish001/Co-Fix3d}{https://github.com/rubbish001/Co-Fix3d}.
- Abstract(参考訳): 運転シナリオにおける3次元物体検出は複雑な道路環境の課題に直面しており、重要な特徴の喪失や不完全性を招き、知覚性能に影響を及ぼす可能性がある。
この問題に対処するため,我々はCo-Fix3Dと呼ばれる高度な検出フレームワークを提案する。
Co-Fix3DはLocal and Global Enhancement (LGE)モジュールを統合し、Bird's Eye View (BEV)機能を洗練する。
LGEモジュールはピクセルレベルの局所最適化に離散ウェーブレット変換(DWT)を使用し、グローバル最適化のための注意機構を組み込んでいる。
様々な検出困難に対処するため、我々はマルチヘッドLGEモジュールを採用し、各モジュールが異なるレベルの検出複雑性を持つターゲットに集中できるようにし、全体的な認識能力を向上する。
実験の結果、nuScenesデータセットのLiDARベンチマークでは、Co-Fix3Dは69.4\% mAPと73.5\% NDSを獲得し、マルチモーダルベンチマークでは72.3\% mAPと74.7\% NDSを達成した。
ソースコードは \href{https://github.com/rubbish001/Co-Fix3d}{https://github.com/rubbish001/Co-Fix3d} で公開されている。
関連論文リスト
- GAFusion: Adaptive Fusing LiDAR and Camera with Multiple Guidance for 3D Object Detection [36.37236815038332]
GAFusion と呼ばれる,LiDAR による大域的相互作用と適応融合を備えた新しい多モード3Dオブジェクト検出法を提案する。
GAFusionは73.6$%$mAPと74.9$%$NDSで最先端の3Dオブジェクト検出結果を達成する。
論文 参考訳(メタデータ) (2024-11-01T03:40:24Z) - GOOD: General Optimization-based Fusion for 3D Object Detection via
LiDAR-Camera Object Candidates [10.534984939225014]
3次元物体検出は、自律運転における知覚タスクの中核となる基礎となる。
Goodは汎用的な最適化ベースの融合フレームワークで、追加のモデルをトレーニングすることなく、満足度の高い検出を実現できる。
nuScenesとKITTIデータセットの両方の実験を行い、その結果、GOODはPointPillarsと比較してmAPスコアで9.1%上回っていることが示された。
論文 参考訳(メタデータ) (2023-03-17T07:05:04Z) - SSDA3D: Semi-supervised Domain Adaptation for 3D Object Detection from
Point Cloud [125.9472454212909]
本稿では,3次元物体検出(SSDA3D)のための半改良型領域適応法を提案する。
SSDA3Dはドメイン間適応ステージとドメイン内一般化ステージを含む。
実験の結果,10%のラベル付きターゲットデータしか持たないSSDA3Dは,100%のターゲットラベルを持つ完全教師付きオラクルモデルを上回ることができることがわかった。
論文 参考訳(メタデータ) (2022-12-06T09:32:44Z) - 3DLG-Detector: 3D Object Detection via Simultaneous Local-Global Feature
Learning [15.995277437128452]
不規則点雲の局所的・大域的特徴の捕獲は3次元物体検出に不可欠である(3OD)
本稿では,3ODを肯定的に利用するシーンポイント雲の局所的な特徴を同時に学習するモジュールについて検討する。
局所的特徴学習(3DLG-Detector)を併用した効果的な3ODネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-31T12:23:40Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。