論文の概要: PC-BEV: An Efficient Polar-Cartesian BEV Fusion Framework for LiDAR Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2412.14821v1
- Date: Thu, 19 Dec 2024 13:12:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:31:15.340075
- Title: PC-BEV: An Efficient Polar-Cartesian BEV Fusion Framework for LiDAR Semantic Segmentation
- Title(参考訳): PC-BEV:LiDARセマンティックセマンティックセグメンテーションのための効率的な極カルテアンBEV融合フレームワーク
- Authors: Shoumeng Qiu, Xinrun Li, XiangYang Xue, Jian Pu,
- Abstract要約: 本稿では,ハイパフォーマンスを実現するためにマルチビュー融合が不可欠である,という一般的な概念に挑戦する。
ポラリとカルテシアンの分配戦略を直接融合させることで, 顕著な利得を実現することができることを示す。
提案手法は高密度な特徴融合を促進し, 疎点に基づく代替手法と比較して, よりリッチな文脈情報を保存する。
- 参考スコア(独自算出の注目度): 42.879223792782334
- License:
- Abstract: Although multiview fusion has demonstrated potential in LiDAR segmentation, its dependence on computationally intensive point-based interactions, arising from the lack of fixed correspondences between views such as range view and Bird's-Eye View (BEV), hinders its practical deployment. This paper challenges the prevailing notion that multiview fusion is essential for achieving high performance. We demonstrate that significant gains can be realized by directly fusing Polar and Cartesian partitioning strategies within the BEV space. Our proposed BEV-only segmentation model leverages the inherent fixed grid correspondences between these partitioning schemes, enabling a fusion process that is orders of magnitude faster (170$\times$ speedup) than conventional point-based methods. Furthermore, our approach facilitates dense feature fusion, preserving richer contextual information compared to sparse point-based alternatives. To enhance scene understanding while maintaining inference efficiency, we also introduce a hybrid Transformer-CNN architecture. Extensive evaluation on the SemanticKITTI and nuScenes datasets provides compelling evidence that our method outperforms previous multiview fusion approaches in terms of both performance and inference speed, highlighting the potential of BEV-based fusion for LiDAR segmentation. Code is available at \url{https://github.com/skyshoumeng/PC-BEV.}
- Abstract(参考訳): マルチビュー融合はLiDARセグメンテーションの可能性を実証しているが、レンジビューやバードアイビュー(Bird's-Eye View, BEV)のようなビュー間の固定された対応の欠如から生じる、計算集約的なポイントベースインタラクションへの依存は、その実践的な展開を妨げる。
本稿では,ハイパフォーマンスを実現するためにマルチビュー融合が不可欠である,という一般的な概念に挑戦する。
我々は, BEV空間内での極とカルテシアンの分配戦略を直接融合させることにより, 顕著な利得を実現することができることを示した。
提案したBEVのみの分割モデルでは,これらの分割方式間の固有な固定格子対応を利用して,従来の点法よりもはるかに高速(170$\times$ speedup)の融合プロセスを実現する。
さらに,本手法は高密度な特徴融合を促進し,スパース点に基づく代替手法と比較してよりリッチな文脈情報を保存する。
推論効率を維持しながらシーン理解を向上させるため,ハイブリッドトランスフォーマー-CNNアーキテクチャも導入する。
SemanticKITTI と nuScenes データセットの広範囲な評価は、我々の手法が従来のマルチビュー融合手法よりも性能と推論速度の両方で優れており、LiDAR セグメンテーションのための BEV ベースの融合の可能性を強調していることを示す説得力のある証拠となる。
コードは \url{https://github.com/skyshoumeng/PC-BEV で入手できる。
※
関連論文リスト
- LSSInst: Improving Geometric Modeling in LSS-Based BEV Perception with Instance Representation [10.434754671492723]
本稿では,BEVおよびインスタンス表現をタンデムに組み込んだ2段階物体検出器であるLSSInstを提案する。
提案した検出器は、既存のLSSベースのBEVネットワークに柔軟に統合可能な、きめ細かいピクセルレベルの特徴を利用する。
提案するフレームワークは,高性能な一般化能力と性能を備え,ベルやホイッスルを使わずに,現代のLSSベースのBEV認識手法の性能を向上させる。
論文 参考訳(メタデータ) (2024-11-09T13:03:54Z) - BEVContrast: Self-Supervision in BEV Space for Automotive Lidar Point
Clouds [73.40883276013373]
自動車のライダー点雲上での3次元バックボーンの自己監督を驚くほどシンプルかつ効率的に行う方法を提案する。
我々は,同じシーンで撮影されたLidarスキャンの特徴間の対照的な損失を設計する。
セルレベルの表現の結果は、PointContrastで利用されるポイントレベルの表現と、TARLで使用されるセグメントレベルの表現との間に良いトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-10-26T10:02:33Z) - X-Align++: cross-modal cross-view alignment for Bird's-eye-view
segmentation [44.58686493878629]
X-Alignは、BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダルおよびクロスビュー学習フレームワークである。
X-Alignは、nuScenesとKITTI-360データセットの3つの絶対mIoUポイントにより、最先端を著しく上回る。
論文 参考訳(メタデータ) (2023-06-06T15:52:55Z) - A Cross-Scale Hierarchical Transformer with Correspondence-Augmented
Attention for inferring Bird's-Eye-View Semantic Segmentation [13.013635162859108]
マルチカメラビュー画像に条件付きBEVセマンティックセマンティックセマンティクスを推定することは、安価なデバイスとリアルタイム処理としてコミュニティで人気がある。
セマンティックセグメンテーション推論のための対応強化された注目度を持つ新しいクロススケール階層変換器を提案する。
マルチカメラビュー画像上でのBEVセマンティックセマンティックセグメンテーションの推測における最先端性能を有する。
論文 参考訳(メタデータ) (2023-04-07T13:52:47Z) - X-Align: Cross-Modal Cross-View Alignment for Bird's-Eye-View
Segmentation [44.95630790801856]
X-Alignは、BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダルおよびクロスビュー学習フレームワークである。
X-Align は nuScene 上で 3 つの絶対 mIoU 点によって最先端を著しく上回る。
論文 参考訳(メタデータ) (2022-10-13T06:42:46Z) - Late Fusion Multi-view Clustering via Global and Local Alignment
Maximization [61.89218392703043]
マルチビュークラスタリング(MVC)は、異なるビューからの補完情報を最適に統合し、クラスタリング性能を改善する。
既存のアプローチの多くは、クラスタリングに最適な類似性行列を学ぶために、複数の事前定義された類似性を直接融合する。
これらの問題に対処するために、アライメントを通してレイトフュージョンMVCを提案する。
論文 参考訳(メタデータ) (2022-08-02T01:49:31Z) - UniFusion: Unified Multi-view Fusion Transformer for Spatial-Temporal
Representation in Bird's-Eye-View [20.169308746548587]
空間的および時間的融合を統一し、それらを統一された数学的定式化にマージする新しい手法を提案する。
提案手法は,空間時空間融合を併用することにより,長距離核融合を支援することができる。
本手法は,地図分割作業における最先端性能を得る。
論文 参考訳(メタデータ) (2022-07-18T11:59:10Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。