論文の概要: EVT: Efficient View Transformation for Multi-Modal 3D Object Detection
- arxiv url: http://arxiv.org/abs/2411.10715v3
- Date: Wed, 26 Mar 2025 05:34:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 16:24:37.340049
- Title: EVT: Efficient View Transformation for Multi-Modal 3D Object Detection
- Title(参考訳): EVT:マルチモーダル3次元物体検出のための効率的なビュー変換
- Authors: Yongjin Lee, Hyeon-Mun Jeong, Yurim Jeon, Sanghyun Kim,
- Abstract要約: Bird's Eye View (BEV) 表現におけるマルチモーダルセンサの融合は、3Dオブジェクト検出における主要なアプローチとなっている。
本稿では,よく構造化されたBEV表現を構成する新しい3次元オブジェクト検出フレームワークであるEfficient View Transformation (EVT)を提案する。
nuScenesテストセットでは、EVTはリアルタイムの推論速度で75.3% NDSの最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 2.9848894641223302
- License:
- Abstract: Multi-modal sensor fusion in Bird's Eye View (BEV) representation has become the leading approach for 3D object detection. However, existing methods often rely on depth estimators or transformer encoders to transform image features into BEV space, which reduces robustness or introduces significant computational overhead. Moreover, the insufficient geometric guidance in view transformation results in ray-directional misalignments, limiting the effectiveness of BEV representations. To address these challenges, we propose Efficient View Transformation (EVT), a novel 3D object detection framework that constructs a well-structured BEV representation, improving both accuracy and efficiency. Our approach focuses on two key aspects. First, Adaptive Sampling and Adaptive Projection (ASAP), which utilizes LiDAR guidance to generate 3D sampling points and adaptive kernels, enables more effective transformation of image features into BEV space and a refined BEV representation. Second, an improved query-based detection framework, incorporating group-wise mixed query selection and geometry-aware cross-attention, effectively captures both the common properties and the geometric structure of objects in the transformer decoder. On the nuScenes test set, EVT achieves state-of-the-art performance of 75.3\% NDS with real-time inference speed.
- Abstract(参考訳): Bird's Eye View (BEV) 表現におけるマルチモーダルセンサの融合は、3Dオブジェクト検出における主要なアプローチとなっている。
しかし、既存の手法では画像特徴をBEV空間に変換するために深度推定器やトランスフォーマーエンコーダを頼りにしており、ロバストさを減らしたり、計算オーバーヘッドを大幅に減らしたりしている。
さらに、ビュートランスフォーメーションにおける幾何学的ガイダンスが不十分なため、線方向のミスアライメントが発生し、BEV表現の有効性が制限される。
これらの課題に対処するため、我々は、よく構造化されたBEV表現を構築する新しい3Dオブジェクト検出フレームワークであるEfficient View Transformation (EVT)を提案する。
私たちのアプローチは2つの重要な側面に焦点を当てています。
まず、LiDAR誘導を利用して3Dサンプリングポイントと適応カーネルを生成するアダプティブサンプリング・アダプティブ・プロジェクション(ASAP)により、画像特徴のより効率的なBEV空間への変換と改良されたBEV表現を実現する。
第二に、グループワイドなクエリ選択と幾何対応のクロスアテンションを取り入れた、改良されたクエリベースの検出フレームワークは、トランスフォーマーデコーダにおけるオブジェクトの共通特性と幾何学的構造の両方を効果的にキャプチャする。
nuScenesテストセットでは、EVTはリアルタイムの推論速度で75.3\% NDSの最先端のパフォーマンスを達成する。
関連論文リスト
- RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion [58.77329237533034]
本稿では3次元物体検出の精度を高めるために,Raar-Camera fusion transformer (RaCFormer)を提案する。
RaCFormerは64.9%のmAPと70.2%のNDSをnuScene上で達成し、LiDARベースの検出器よりも優れている。
論文 参考訳(メタデータ) (2024-12-17T09:47:48Z) - MaskBEV: Towards A Unified Framework for BEV Detection and Map Segmentation [14.67253585778639]
MaskBEVは、マスキングによるマルチタスク学習パラダイムである。
3Dオブジェクトの検出と鳥の目視(BEV)マップのセグメンテーションを統一する。
3Dオブジェクト検出の1.3 NDS改善とBEVマップセグメンテーションの2.7 mIoU改善を実現している。
論文 参考訳(メタデータ) (2024-08-17T07:11:38Z) - Divide and Conquer: Improving Multi-Camera 3D Perception with 2D Semantic-Depth Priors and Input-Dependent Queries [30.17281824826716]
既存の手法は、しばしば意味と深さの手がかりの相乗効果を無視し、分類と位置推定誤差をもたらす。
本稿では,SemanticsとDepthを先行として活用した入力対応トランスフォーマーフレームワークを提案する。
我々のアプローチは、意味と深さの事前を明示的にモデル化するS-Dを用いることで、オブジェクトの分類と位置推定の学習プロセスを阻害する。
論文 参考訳(メタデータ) (2024-08-13T13:51:34Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection [29.530177591608297]
マルチビュー3Dオブジェクト検出は、高い有効性と低コストのため、自動運転において人気を博している。
現在の最先端検出器のほとんどは、クエリベースのバードアイビュー(BEV)パラダイムに従っている。
本稿では,移動対象の時間的・空間的手がかりをより効率的に彫ることができるOCBEVを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:59:48Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - LiDAR-Based 3D Object Detection via Hybrid 2D Semantic Scene Generation [38.38852904444365]
本稿では,2次元空間における3次元環境のセマンティクスと幾何学の両方をエンコードするシーン表現を提案する。
私たちのシンプルで効果的なデザインは、ほとんどの最先端の3Dオブジェクト検出器に簡単に統合できます。
論文 参考訳(メタデータ) (2023-04-04T04:05:56Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。