論文の概要: DenseBEV: Transforming BEV Grid Cells into 3D Objects
- arxiv url: http://arxiv.org/abs/2512.16818v1
- Date: Thu, 18 Dec 2025 17:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.191408
- Title: DenseBEV: Transforming BEV Grid Cells into 3D Objects
- Title(参考訳): DenseBEV:BEVグリッドセルを3Dオブジェクトに変換する
- Authors: Marius Dähling, Sebastian Krebs, J. Marius Zöllner,
- Abstract要約: Bird's-Eye-View (BEV)ベースのトランスフォーマーは、マルチカメラ3Dオブジェクト検出にますます利用されている。
最近の進歩は、これらのランダムなクエリを補助的なネットワークからの検出で補完または置き換えている。
本稿では,BEV機能セルを直接アンカーとして使用することで,より直感的で効率的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 10.619058888618051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In current research, Bird's-Eye-View (BEV)-based transformers are increasingly utilized for multi-camera 3D object detection. Traditional models often employ random queries as anchors, optimizing them successively. Recent advancements complement or replace these random queries with detections from auxiliary networks. We propose a more intuitive and efficient approach by using BEV feature cells directly as anchors. This end-to-end approach leverages the dense grid of BEV queries, considering each cell as a potential object for the final detection task. As a result, we introduce a novel two-stage anchor generation method specifically designed for multi-camera 3D object detection. To address the scaling issues of attention with a large number of queries, we apply BEV-based Non-Maximum Suppression, allowing gradients to flow only through non-suppressed objects. This ensures efficient training without the need for post-processing. By using BEV features from encoders such as BEVFormer directly as object queries, temporal BEV information is inherently embedded. Building on the temporal BEV information already embedded in our object queries, we introduce a hybrid temporal modeling approach by integrating prior detections to further enhance detection performance. Evaluating our method on the nuScenes dataset shows consistent and significant improvements in NDS and mAP over the baseline, even with sparser BEV grids and therefore fewer initial anchors. It is particularly effective for small objects, enhancing pedestrian detection with a 3.8% mAP increase on nuScenes and an 8% increase in LET-mAP on Waymo. Applying our method, named DenseBEV, to the challenging Waymo Open dataset yields state-of-the-art performance, achieving a LET-mAP of 60.7%, surpassing the previous best by 5.4%. Code is available at https://github.com/mdaehl/DenseBEV.
- Abstract(参考訳): 現在の研究では、Bird's-Eye-View(BEV)ベースのトランスフォーマーが、マルチカメラ3Dオブジェクト検出にますます利用されている。
伝統的なモデルは、しばしばランダムなクエリをアンカーとして使用し、それらを連続的に最適化する。
最近の進歩は、これらのランダムなクエリを補助的なネットワークからの検出で補完または置き換えている。
本稿では,BEV機能セルを直接アンカーとして使用することで,より直感的で効率的なアプローチを提案する。
このエンドツーエンドアプローチは、最終検出タスクの潜在的な対象として各セルを考慮し、BEVクエリの高密度グリッドを利用する。
その結果,マルチカメラ3Dオブジェクト検出に特化して設計された2段アンカー生成手法が導入された。
多数のクエリで注目されるスケーリング問題に対処するために、BEVベースの非最大抑圧を適用し、非抑圧オブジェクトを通してのみ勾配が流れるようにする。
これにより、後処理を必要とせずに、効率的なトレーニングが可能になる。
オブジェクトクエリとして直接BEVFormerのようなエンコーダのBEV機能を使用することで、時間的BEV情報は本質的に埋め込まれる。
我々は,すでにオブジェクトクエリに埋め込まれている時間的BEV情報に基づいて,事前検出を統合して検出性能をさらに高めるハイブリッド時間的モデリング手法を提案する。
提案手法をnuScenesデータセット上で評価した結果,スペーサーBEVグリッドであっても,ベースライン上でのNDSとmAPの一貫性と大幅な改善が示され,初期アンカーが減少することがわかった。
これは特に小さな物体に対して有効であり、nuScenesでは3.8%のmAP増加、Waymoでは8%のLET-mAP増加で歩行者検出を強化している。
我々の手法であるDenseBEVを挑戦的なWaymo Openデータセットに適用すると、最先端のパフォーマンスが得られ、LET-mAPの60.7%が達成され、前回の最高値を5.4%上回った。
コードはhttps://github.com/mdaehl/DenseBEV.comで入手できる。
関連論文リスト
- RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion [58.77329237533034]
本稿では3次元物体検出の精度を高めるために,Raar-Camera fusion transformer (RaCFormer)を提案する。
RaCFormerは、nuScenesデータセット上で64.9% mAPと70.2%の優れた結果を得る。
論文 参考訳(メタデータ) (2024-12-17T09:47:48Z) - BEVNeXt: Reviving Dense BEV Frameworks for 3D Object Detection [47.7933708173225]
近年,クエリベースのトランスフォーマーデコーダが登場し,カメラベースの3Dオブジェクト検出が作り直されている。
本稿では,BEVNeXtと呼ばれる高密度BEVフレームワークを紹介する。
nuScenesベンチマークでは、BEVNeXtはBEVベースのフレームワークとクエリベースのフレームワークの両方を上回っている。
論文 参考訳(メタデータ) (2023-12-04T07:35:02Z) - U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based Relocalization [81.76044207714637]
GPS受信が不十分な場合やセンサベースのローカライゼーションが失敗する場合、インテリジェントな車両には再ローカライゼーションが不可欠である。
Bird's-Eye-View (BEV)セグメンテーションの最近の進歩は、局所的な景観の正確な推定を可能にする。
本稿では,U-NetにインスパイアされたアーキテクチャであるU-BEVについて述べる。
論文 参考訳(メタデータ) (2023-10-20T18:57:38Z) - QE-BEV: Query Evolution for Bird's Eye View Object Detection in Varied Contexts [2.949710700293865]
3Dオブジェクト検出は、自律走行とロボット工学において重要な役割を担い、バードアイビュー(Bird's Eye View, BEV)の画像の正確な解釈を要求する。
動的クエリ進化戦略を利用して,K平均とTop-Kアテンション機構を利用するフレームワークを提案する。
本評価では,クエリに基づくBEVオブジェクト検出の領域に新たなベンチマークを設定することにより,検出精度が著しく向上したことを示す。
論文 参考訳(メタデータ) (2023-10-07T21:55:29Z) - SparseBEV: High-Performance Sparse 3D Object Detection from Multi-Camera
Videos [20.51396212498941]
SparseBEVは完全にスパースな3Dオブジェクト検出器で、密度の高い物体よりも優れています。
nuScenesのテスト分割で、SparseBEVは67.5 NDSの最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-08-18T02:11:01Z) - OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection [29.530177591608297]
マルチビュー3Dオブジェクト検出は、高い有効性と低コストのため、自動運転において人気を博している。
現在の最先端検出器のほとんどは、クエリベースのバードアイビュー(BEV)パラダイムに従っている。
本稿では,移動対象の時間的・空間的手がかりをより効率的に彫ることができるOCBEVを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:59:48Z) - MetaBEV: Solving Sensor Failures for BEV Detection and Map Segmentation [104.12419434114365]
現実世界のアプリケーションでは、センサの破損や故障がパフォーマンスの低下につながります。
極端に現実世界の環境に対処するための,MetaBEVと呼ばれる堅牢なフレームワークを提案する。
MetaBEVは、完全なモダリティと腐敗したモダリティの両方に大きなマージンで、先行技術よりも優れています。
論文 参考訳(メタデータ) (2023-04-19T16:37:17Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。