論文の概要: CAM3DNet: Comprehensively mining the multi-scale features for 3D Object Detection with Multi-View Cameras
- arxiv url: http://arxiv.org/abs/2604.17024v1
- Date: Sat, 18 Apr 2026 15:14:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.295593
- Title: CAM3DNet: Comprehensively mining the multi-scale features for 3D Object Detection with Multi-View Cameras
- Title(参考訳): CAM3DNet:マルチビューカメラを用いた3Dオブジェクト検出のためのマルチスケール機能を網羅的にマイニングする
- Authors: Mingxi Pang, Dingheng Wang, Zekun Li, Zhenping Sun, Bo Wang, Zhihang Wang, Zhao-Xu Yang,
- Abstract要約: CAM3DNetは、複合(CQ)、適応自己注意(ASA)、マルチスケールハイブリッドサンプリング(MSHS)を組み合わせた、新しいクエリベースのフレームワークである。
- 参考スコア(独自算出の注目度): 6.46812874971512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Query-based 3D object detection methods using multi-view images often struggle to efficiently leverage dynamic multi-scale information, e.g., the relationship between the object features and the geometric of the queries are not sufficiently learned, directly exploring the multi-scale spatiotemporal features will pay too many costs. To address these challenges, we propose CAM3DNet, a novel sparse query-based framework which combines three new modules, composite query (CQ), adaptive self-attention (ASA), and multi-scale hybrid sampling (MSHS). First, the core idea in the CQ module is a multi-scale projection strategy to transform 2D queries into 3D space. Second, the ASA module learns the interactions between the spatiotemporal multi-scale queries. Third, the MSHS module uses the deformable attention mechanism to sample multi-scale object information by considering multi-scales queries, pyramid feature maps, and 2D-camera prior knowledge. The entire model employs a backbone network and a feature pyramid network (FPN) as the encoder, then introduces a YOLOX and a DepthNet as a ROI\_Head to produce CQ, and repeatedly utilizes ASA and MSHS as the decoder to gain detection features. Extensive experiments on the nuScenes, Waymo, and Argoverse benchmark datasets demonstrate the effectiveness of our CAM3DNet, and most existing camera-based 3D object detection methods are outperformed. Besides, we make comprehensive ablation studies to check the individual effect of CQ, ASA, and MSHS, as well as their cost of space and computation complexity.
- Abstract(参考訳): マルチビュー画像を用いたクエリベースの3Dオブジェクト検出手法は、動的マルチスケール情報(例えば、オブジェクトの特徴とクエリの幾何学的関係)を効率的に活用するのに苦労することが多い。
CAM3DNetは3つの新しいモジュール、複合クエリ(CQ)、適応自己アテンション(ASA)、マルチスケールハイブリッドサンプリング(MSHS)を組み合わせた新しいスパースクエリベースのフレームワークである。
まず、CQモジュールの中核となるアイデアは、2Dクエリを3D空間に変換するマルチスケールプロジェクション戦略である。
次に、ASAモジュールは時空間的マルチスケールクエリ間の相互作用を学習する。
第三に、MSHSモジュールは変形可能なアテンション機構を使用して、マルチスケールクエリ、ピラミッド特徴マップ、および2Dカメラ事前知識を考慮して、マルチスケールオブジェクト情報をサンプリングする。
モデル全体では、バックボーンネットワークと機能ピラミッドネットワーク(FPN)をエンコーダとして使用し、その後、ROI\_HeadとしてYOLOXとDepthNetを導入してCQを生成し、ASAとMSHSをデコーダとして繰り返し使用して検出機能を得る。
nuScenes、Waymo、Argoverseのベンチマークデータセットに関する大規模な実験は、私たちのCAM3DNetの有効性を示しており、既存のカメラベースの3Dオブジェクト検出方法の方が優れています。
さらに,CQ,ASA,MSHSの個々の効果,空間および計算複雑性のコストを総合的に検討する。
関連論文リスト
- PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and
Multi-View for 3D Object Retrieval [8.74845857766369]
大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。
本稿では,3次元オブジェクト検索のための点群と多視点画像の自己・横断的アグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-07-20T05:46:32Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - SRCN3D: Sparse R-CNN 3D for Compact Convolutional Multi-View 3D Object
Detection and Tracking [12.285423418301683]
本稿では,スパースクエリ,ボックスワイズサンプリングによるスパースアテンション,スパース予測を組み込んだ新しい2段フルスパース検出器であるスパースR-CNN3Dを提案する。
nuScenesデータセットの実験では、SRCN3Dは3Dオブジェクト検出とマルチオブジェクト追跡の両方で競合性能を達成している。
論文 参考訳(メタデータ) (2022-06-29T07:58:39Z) - 3D-MAN: 3D Multi-frame Attention Network for Object Detection [22.291051951077485]
3D-MANは、複数の視点から効果的に機能を集約する3Dマルチフレームアテンションネットワークです。
3D-MANは, 単フレームおよび複数フレームの手法と比較して, 最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-30T03:44:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。