論文の概要: GeoBEV: Learning Geometric BEV Representation for Multi-view 3D Object Detection
- arxiv url: http://arxiv.org/abs/2409.01816v2
- Date: Sun, 22 Dec 2024 14:15:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 19:21:24.495208
- Title: GeoBEV: Learning Geometric BEV Representation for Multi-view 3D Object Detection
- Title(参考訳): GeoBEV:多視点3次元物体検出のための幾何学的BEV表現の学習
- Authors: Jinqing Zhang, Yanan Zhang, Yunlong Qi, Zehua Fu, Qingjie Liu, Yunhong Wang,
- Abstract要約: Bird's-Eye-View (BEV)表現は、マルチビュー3Dオブジェクト検出の主流パラダイムとして登場した。
既存の方法では、BEV表現の幾何学的品質を見落とし、低分解能状態に置かれている。
我々は高分解能高密度BEV表現を生成するためにラジアル・カルテシアンBEVサンプリング(RC-Sampling)を提案する。
In-Box Labelとともに、Centroid-Aware Inner Loss (CAI Loss) が開発され、物体の内部幾何学構造を捉えている。
- 参考スコア(独自算出の注目度): 36.245654685143016
- License:
- Abstract: Bird's-Eye-View (BEV) representation has emerged as a mainstream paradigm for multi-view 3D object detection, demonstrating impressive perceptual capabilities. However, existing methods overlook the geometric quality of BEV representation, leaving it in a low-resolution state and failing to restore the authentic geometric information of the scene. In this paper, we identify the drawbacks of previous approaches that limit the geometric quality of BEV representation and propose Radial-Cartesian BEV Sampling (RC-Sampling), which outperforms other feature transformation methods in efficiently generating high-resolution dense BEV representation to restore fine-grained geometric information. Additionally, we design a novel In-Box Label to substitute the traditional depth label generated from the LiDAR points. This label reflects the actual geometric structure of objects rather than just their surfaces, injecting real-world geometric information into the BEV representation. In conjunction with the In-Box Label, Centroid-Aware Inner Loss (CAI Loss) is developed to capture the inner geometric structure of objects. Finally, we integrate the aforementioned modules into a novel multi-view 3D object detector, dubbed GeoBEV, which achieves a state-of-the-art result of 66.2\% NDS on the nuScenes test set. The code is available at https://github.com/mengtan00/GeoBEV.git.
- Abstract(参考訳): Bird's-Eye-View (BEV)表現は、マルチビュー3Dオブジェクト検出の主流パラダイムとして現れ、印象的な知覚能力を示している。
しかし、既存の方法では、BEV表現の幾何学的品質を見落とし、解像度の低い状態のままにして、シーンの正確な幾何学的情報を復元することができない。
本稿では、BEV表現の幾何学的品質を制限する従来の手法の欠点を特定し、高精細度BEV表現を効率よく生成し、粒度の幾何情報を復元する他の特徴変換法より優れているラジアル・カルテシアン型BEVサンプリング(RC-Sampling)を提案する。
さらに,従来の深度ラベルをLiDARポイントから置き換える新しいIn-Box Labelを設計する。
このラベルは、物体の表面だけでなく実際の幾何学構造を反映し、実際の幾何学情報をBEV表現に注入する。
In-Box Labelとともに、Centroid-Aware Inner Loss (CAI Loss) が開発され、物体の内部幾何学構造を捉えている。
最後に、上記のモジュールをGeoBEVと呼ばれる新しい多視点3Dオブジェクト検出器に統合し、nuScenesテストセット上で66.2\% NDSの最先端結果を得る。
コードはhttps://github.com/mengtan00/GeoBEV.gitで公開されている。
関連論文リスト
- Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - BEVNeXt: Reviving Dense BEV Frameworks for 3D Object Detection [47.7933708173225]
近年,クエリベースのトランスフォーマーデコーダが登場し,カメラベースの3Dオブジェクト検出が作り直されている。
本稿では,BEVNeXtと呼ばれる高密度BEVフレームワークを紹介する。
nuScenesベンチマークでは、BEVNeXtはBEVベースのフレームワークとクエリベースのフレームワークの両方を上回っている。
論文 参考訳(メタデータ) (2023-12-04T07:35:02Z) - OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection [29.530177591608297]
マルチビュー3Dオブジェクト検出は、高い有効性と低コストのため、自動運転において人気を博している。
現在の最先端検出器のほとんどは、クエリベースのバードアイビュー(BEV)パラダイムに従っている。
本稿では,移動対象の時間的・空間的手がかりをより効率的に彫ることができるOCBEVを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:59:48Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - LiDAR-Based 3D Object Detection via Hybrid 2D Semantic Scene Generation [38.38852904444365]
本稿では,2次元空間における3次元環境のセマンティクスと幾何学の両方をエンコードするシーン表現を提案する。
私たちのシンプルで効果的なデザインは、ほとんどの最先端の3Dオブジェクト検出器に簡単に統合できます。
論文 参考訳(メタデータ) (2023-04-04T04:05:56Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - Rethinking Dimensionality Reduction in Grid-based 3D Object Detection [24.249147412551768]
我々は,MDRNetと呼ばれるマルチレベル特徴量次元削減戦略に基づく,新しいポイントクラウド検出ネットワークを提案する。
MDRNetでは、空間認識次元度低減(SDR)は、ボクセル-BEV間の特徴変換において、オブジェクトの価値のある部分に動的に集中するように設計されている。
nuScenes実験の結果,提案手法は最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2022-09-20T04:51:54Z) - BirdNet+: End-to-End 3D Object Detection in LiDAR Bird's Eye View [117.44028458220427]
自動運転車のオンボード3Dオブジェクト検出は、LiDARデバイスが捉えた幾何学情報に依存することが多い。
本稿では,BEV画像のみから指向性3Dボックスを推測可能な,エンドツーエンドの3Dオブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-09T15:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。