論文の概要: PolarBEVDet: Exploring Polar Representation for Multi-View 3D Object Detection in Bird's-Eye-View
- arxiv url: http://arxiv.org/abs/2408.16200v3
- Date: Wed, 04 Dec 2024 03:15:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 11:46:58.982537
- Title: PolarBEVDet: Exploring Polar Representation for Multi-View 3D Object Detection in Bird's-Eye-View
- Title(参考訳): PolarBEVDet:Bird's-Eye-Viewにおける多視点3次元物体検出のための極性表現の探索
- Authors: Zichen Yu, Quanli Liu, Wei Wang, Liyong Zhang, Xiaoguang Zhao,
- Abstract要約: カルテシアンBEV表現の代替として極性BEV表現を用いることを提案する。
nuScenesの実験では、PolarBEVDetは優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 5.0458717114406975
- License:
- Abstract: Recently, LSS-based multi-view 3D object detection provides an economical and deployment-friendly solution for autonomous driving. However, all the existing LSS-based methods transform multi-view image features into a Cartesian Bird's-Eye-View(BEV) representation, which does not take into account the non-uniform image information distribution and hardly exploits the view symmetry. In this paper, in order to adapt the image information distribution and preserve the view symmetry by regular convolution, we propose to employ the polar BEV representation to substitute the Cartesian BEV representation. To achieve this, we elaborately tailor three modules: a polar view transformer to generate the polar BEV representation, a polar temporal fusion module for fusing historical polar BEV features and a polar detection head to predict the polar-parameterized representation of the object. In addition, we design a 2D auxiliary detection head and a spatial attention enhancement module to improve the quality of feature extraction in perspective view and BEV, respectively. Finally, we integrate the above improvements into a novel multi-view 3D object detector, PolarBEVDet. Experiments on nuScenes show that PolarBEVDet achieves the superior performance. The code is available at https://github.com/Yzichen/PolarBEVDet.git.(This work has been submitted to the IEEE for possible publication. Copyright may be transferred without notice, after which this version may no longer be accessible)
- Abstract(参考訳): 近年,LSSをベースとした多視点3Dオブジェクト検出は,自律運転に経済的かつ展開しやすいソリューションを提供する。
しかし、既存のLSSベースの手法はすべて、多視点画像の特徴をCartesian Bird's-Eye-View(BEV)表現に変換する。
本稿では、画像情報分布の適応と、正規畳み込みによる視線対称性の維持のために、カルテシアンBEV表現の代替として極性BEV表現を用いることを提案する。
これを実現するために、極性BEV表現を生成する極性ビュー変換器、歴史的極性BEV特徴を融合する極性時間融合モジュール、極性検出ヘッドの3つのモジュールを精巧に調整し、物体の極性パラメータ化表現を予測する。
さらに,2次元補助検出ヘッドと空間的注意度向上モジュールを設計し,視点視における特徴抽出の質を向上する。
最後に、上記の改良点を新しい多視点3Dオブジェクト検出器であるPolarBEVDetに統合する。
nuScenesの実験では、PolarBEVDetは優れたパフォーマンスを実現している。
コードはhttps://github.com/Yzichen/PolarBEVDet.gitで公開されている。
(この作業はIEEEに提出され、出版される可能性がある。著作権は無通知で譲渡され、その後、このバージョンはもはやアクセスできない。)
関連論文リスト
- VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - Leveraging BEV Representation for 360-degree Visual Place Recognition [14.497501941931759]
本稿では,360度視覚位置認識(VPR)におけるBird's Eye View表現の利点について検討する。
本稿では,特徴抽出,特徴集約,視覚-LiDAR融合におけるBEV表現を利用した新しいネットワークアーキテクチャを提案する。
提案手法は,2つのデータセットのアブレーションおよび比較研究において評価される。
論文 参考訳(メタデータ) (2023-05-23T08:29:42Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - Multi-Projection Fusion and Refinement Network for Salient Object
Detection in 360{\deg} Omnidirectional Image [141.10227079090419]
我々は,360度全方位画像中の有向物体を検出するために,MPFR-Net(Multi-Projection Fusion and Refinement Network)を提案する。
MPFR-Netは、等角射影像と対応する4つの立方体展開像を入力として使用する。
2つの全方位データセットの実験結果から,提案手法は定性的かつ定量的に,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-12-23T14:50:40Z) - Vision-based Uneven BEV Representation Learning with Polar Rasterization
and Surface Estimation [42.071461405587264]
視覚に基づく不均一なBEV表現学習のためのPolarBEVを提案する。
PolarBEVは、1台の2080Ti GPU上でリアルタイムの推論速度を維持する。
論文 参考訳(メタデータ) (2022-07-05T08:20:36Z) - PolarFormer: Multi-camera 3D Object Detection with Polar Transformers [93.49713023975727]
自律運転における3次元物体検出は、3次元の世界に存在する「何」と「どこに」の物体を推論することを目的としている。
既存の手法はしばしば垂直軸を持つ標準カルテ座標系を採用する。
鳥眼ビュー(BEV)におけるより正確な3次元物体検出のための新しい極変換器(PolarFormer)を,マルチカメラ2D画像のみを入力として提案する。
論文 参考訳(メタデータ) (2022-06-30T16:32:48Z) - Polar Parametrization for Vision-based Surround-View 3D Detection [35.2870826850481]
3次元検出のための極性パラメトリゼーションは、位置パラメトリゼーション、速度分解、知覚範囲、ラベル割り当て、損失関数を再構成する。
偏光パラメトリゼーションに基づいて,ポーラDETRと呼ばれるサラウンドビュー3次元検出TRansformerを提案する。
論文 参考訳(メタデータ) (2022-06-22T10:26:12Z) - SGM3D: Stereo Guided Monocular 3D Object Detection [62.11858392862551]
SGM3Dと呼ばれるステレオ誘導単分子物体検出ネットワークを提案する。
ステレオ画像から抽出したロバストな3次元特徴を利用して、モノクル画像から得られた特徴を強化する。
本手法は,余分な計算コストを伴わずに性能を向上させるために,他の多くの単分子的手法に統合することができる。
論文 参考訳(メタデータ) (2021-12-03T13:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。