論文の概要: BEVNeXt: Reviving Dense BEV Frameworks for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2312.01696v2
- Date: Sun, 24 Mar 2024 14:50:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 02:15:55.029249
- Title: BEVNeXt: Reviving Dense BEV Frameworks for 3D Object Detection
- Title(参考訳): BEVNeXt:3Dオブジェクト検出のための高密度なBEVフレームワークの復活
- Authors: Zhenxin Li, Shiyi Lan, Jose M. Alvarez, Zuxuan Wu,
- Abstract要約: 近年,クエリベースのトランスフォーマーデコーダが登場し,カメラベースの3Dオブジェクト検出が作り直されている。
本稿では,BEVNeXtと呼ばれる高密度BEVフレームワークを紹介する。
nuScenesベンチマークでは、BEVNeXtはBEVベースのフレームワークとクエリベースのフレームワークの両方を上回っている。
- 参考スコア(独自算出の注目度): 47.7933708173225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the rise of query-based Transformer decoders is reshaping camera-based 3D object detection. These query-based decoders are surpassing the traditional dense BEV (Bird's Eye View)-based methods. However, we argue that dense BEV frameworks remain important due to their outstanding abilities in depth estimation and object localization, depicting 3D scenes accurately and comprehensively. This paper aims to address the drawbacks of the existing dense BEV-based 3D object detectors by introducing our proposed enhanced components, including a CRF-modulated depth estimation module enforcing object-level consistencies, a long-term temporal aggregation module with extended receptive fields, and a two-stage object decoder combining perspective techniques with CRF-modulated depth embedding. These enhancements lead to a "modernized" dense BEV framework dubbed BEVNeXt. On the nuScenes benchmark, BEVNeXt outperforms both BEV-based and query-based frameworks under various settings, achieving a state-of-the-art result of 64.2 NDS on the nuScenes test set. Code will be available at \url{https://github.com/woxihuanjiangguo/BEVNeXt}.
- Abstract(参考訳): 近年,クエリベースのトランスフォーマーデコーダが登場し,カメラベースの3Dオブジェクト検出が作り直されている。
これらのクエリベースのデコーダは、従来のBEV(Bird's Eye View)ベースの手法を超越している。
しかし,深度推定や物体位置推定に優れた能力を持つため,高密度なBEVフレームワークは依然として重要であり,正確な3次元シーンを包括的に描いている。
本稿では,CRF変調深度推定モジュール(CRF変調深度推定モジュール),拡張受容場を有する長期時間アグリゲーションモジュール,遠近法とCRF変調深度埋め込みを組み合わせた2段階物体デコーダなど,既存の高密度BEVベースの3次元物体検出器の欠点に対処することを目的とする。
これらの拡張は、BEVNeXtと呼ばれる"近代化された"高密度なBEVフレームワークにつながった。
nuScenesベンチマークでは、BEVNeXtはBEVベースのフレームワークとクエリベースのフレームワークの両方をさまざまな設定で上回り、nuScenesテストセット上で64.2 NDSの最先端結果を達成する。
コードは \url{https://github.com/woxihuanjiangguo/BEVNeXt} で入手できる。
関連論文リスト
- GeoBEV: Learning Geometric BEV Representation for Multi-view 3D Object Detection [36.245654685143016]
Bird's-Eye-View (BEV)表現は、マルチビュー3Dオブジェクト検出の主流パラダイムとして登場した。
既存の方法では、BEV表現の幾何学的品質を見落とし、低分解能状態に置かれている。
論文 参考訳(メタデータ) (2024-09-03T11:57:36Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - CoBEV: Elevating Roadside 3D Object Detection with Depth and Height Complementarity [34.025530326420146]
我々は、新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるComplementary-BEVを開発した。
道路カメラを用いたDAIR-V2X-IとRope3Dの公開3次元検出ベンチマークについて広範な実験を行った。
カメラモデルのAPスコアが初めてDAIR-V2X-Iで80%に達する。
論文 参考訳(メタデータ) (2023-10-04T13:38:53Z) - SparseBEV: High-Performance Sparse 3D Object Detection from Multi-Camera
Videos [20.51396212498941]
SparseBEVは完全にスパースな3Dオブジェクト検出器で、密度の高い物体よりも優れています。
nuScenesのテスト分割で、SparseBEVは67.5 NDSの最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-08-18T02:11:01Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - LiDAR-Based 3D Object Detection via Hybrid 2D Semantic Scene Generation [38.38852904444365]
本稿では,2次元空間における3次元環境のセマンティクスと幾何学の両方をエンコードするシーン表現を提案する。
私たちのシンプルで効果的なデザインは、ほとんどの最先端の3Dオブジェクト検出器に簡単に統合できます。
論文 参考訳(メタデータ) (2023-04-04T04:05:56Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。