論文の概要: HV-BEV: Decoupling Horizontal and Vertical Feature Sampling for Multi-View 3D Object Detection
- arxiv url: http://arxiv.org/abs/2412.18884v3
- Date: Wed, 21 May 2025 13:35:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:57.240564
- Title: HV-BEV: Decoupling Horizontal and Vertical Feature Sampling for Multi-View 3D Object Detection
- Title(参考訳): HV-BEV:多視点3次元物体検出のための水平・垂直特徴サンプリングの分離
- Authors: Di Wu, Feng Yang, Benlian Xu, Pan Liao, Wenhui Zhao, Dingwen Zhang,
- Abstract要約: 視覚に基づく多視点環境認識システムの適用は、自律運転技術においてますます認識されている。
現在の最先端ソリューションは主に、暗黙の深度予測を通じて、各カメラビューからの画像をBEV空間にエンコードする。
我々は,textbfBEVグリッドクエリのパラダイムにおける特徴サンプリングを,textbfHorizontal特徴集約に分離する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 34.72603963887331
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The application of vision-based multi-view environmental perception system has been increasingly recognized in autonomous driving technology, especially the BEV-based models. Current state-of-the-art solutions primarily encode image features from each camera view into the BEV space through explicit or implicit depth prediction. However, these methods often overlook the structured correlations among different parts of objects in 3D space and the fact that different categories of objects often occupy distinct local height ranges. For example, trucks appear at higher elevations, whereas traffic cones are near the ground. In this work, we propose a novel approach that decouples feature sampling in the \textbf{BEV} grid queries paradigm into \textbf{H}orizontal feature aggregation and \textbf{V}ertical adaptive height-aware reference point sampling (HV-BEV), aiming to improve both the aggregation of objects' complete information and awareness of diverse objects' height distribution. Specifically, a set of relevant neighboring points is dynamically constructed for each 3D reference point on the ground-aligned horizontal plane, enhancing the association of the same instance across different BEV grids, especially when the instance spans multiple image views around the vehicle. Additionally, instead of relying on uniform sampling within a fixed height range, we introduce a height-aware module that incorporates historical information, enabling the reference points to adaptively focus on the varying heights at which objects appear in different scenes. Extensive experiments validate the effectiveness of our proposed method, demonstrating its superior performance over the baseline across the nuScenes dataset. Moreover, our best-performing model achieves a remarkable 50.5\% mAP and 59.8\% NDS on the nuScenes testing set. The code is available at https://github.com/Uddd821/HV-BEV.
- Abstract(参考訳): 視覚に基づくマルチビュー環境認識システムの応用は、自律運転技術、特にBEVベースのモデルにおいてますます認識されている。
現在の最先端ソリューションは主に、暗黙の深度予測を通じて、各カメラビューからの画像をBEV空間にエンコードする。
しかし、これらの手法は3次元空間における物体の異なる部分間の構造的相関や、物体の異なるカテゴリがしばしば異なる局所的高さ範囲を占めるという事実をしばしば見落としている。
例えば、トラックは高い高度に見え、一方、交通円錐は地面の近くにあります。
本研究では,対象物の完全情報収集と多種多様オブジェクトの高さ分布の認識の両方を改善することを目的とした,<textbf{H}オリゾン的特徴集約と<textbf{V}ertical Adaptive height-aware reference point sample (HV-BEV)に特徴サンプリングを分離する手法を提案する。
具体的には、接地方向水平平面上の各3次元基準点に対して、関連する隣接点のセットを動的に構築し、特に車両周辺の複数の画像ビューにまたがる場合に、同一のインスタンスが異なるBEVグリッドにまたがる関連性を高める。
さらに,固定高さ範囲内での均一サンプリングに頼る代わりに,歴史的情報を含む高さ認識モジュールを導入し,参照ポイントが異なるシーンに物体が現れる様々な高さに適応的に焦点を合わせることができるようにした。
大規模な実験により提案手法の有効性が検証され, nuScenesデータセットのベースラインよりも優れた性能を示した。
さらに,本モデルでは, nuScenes テストセットにおいて, 50.5 % mAP と 59.8 % NDS を顕著に達成している。
コードはhttps://github.com/Uddd821/HV-BEVで入手できる。
関連論文リスト
- RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion [58.77329237533034]
本稿では3次元物体検出の精度を高めるために,Raar-Camera fusion transformer (RaCFormer)を提案する。
RaCFormerは、nuScenesデータセット上で64.9% mAPと70.2%の優れた結果を得る。
論文 参考訳(メタデータ) (2024-12-17T09:47:48Z) - HeightLane: BEV Heightmap guided 3D Lane Detection [6.940660861207046]
単分子画像からの正確な3次元車線検出は、深さのあいまいさと不完全な地盤モデリングによる重要な課題を示す。
本研究は,マルチスロープ仮定に基づいてアンカーを作成することにより,単眼画像から高さマップを予測する革新的な手法であるHeightLaneを紹介する。
HeightLaneは、Fスコアの観点から最先端のパフォーマンスを実現し、現実世界のアプリケーションにおけるその可能性を強調している。
論文 参考訳(メタデータ) (2024-08-15T17:14:57Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing [28.874014617259935]
マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。
本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T15:31:28Z) - CoBEV: Elevating Roadside 3D Object Detection with Depth and Height Complementarity [34.025530326420146]
我々は、新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるComplementary-BEVを開発した。
道路カメラを用いたDAIR-V2X-IとRope3Dの公開3次元検出ベンチマークについて広範な実験を行った。
カメラモデルのAPスコアが初めてDAIR-V2X-Iで80%に達する。
論文 参考訳(メタデータ) (2023-10-04T13:38:53Z) - OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection [29.530177591608297]
マルチビュー3Dオブジェクト検出は、高い有効性と低コストのため、自動運転において人気を博している。
現在の最先端検出器のほとんどは、クエリベースのバードアイビュー(BEV)パラダイムに従っている。
本稿では,移動対象の時間的・空間的手がかりをより効率的に彫ることができるOCBEVを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:59:48Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。