論文の概要: BEVContrast: Self-Supervision in BEV Space for Automotive Lidar Point
Clouds
- arxiv url: http://arxiv.org/abs/2310.17281v1
- Date: Thu, 26 Oct 2023 10:02:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 20:58:46.182584
- Title: BEVContrast: Self-Supervision in BEV Space for Automotive Lidar Point
Clouds
- Title(参考訳): BEVContrast: 自動車ライダーポイントクラウドのためのBEVスペースのセルフスーパービジョン
- Authors: Corentin Sautier, Gilles Puy, Alexandre Boulch, Renaud Marlet, Vincent
Lepetit
- Abstract要約: 自動車のライダー点雲上での3次元バックボーンの自己監督を驚くほどシンプルかつ効率的に行う方法を提案する。
我々は,同じシーンで撮影されたLidarスキャンの特徴間の対照的な損失を設計する。
セルレベルの表現の結果は、PointContrastで利用されるポイントレベルの表現と、TARLで使用されるセグメントレベルの表現との間に良いトレードオフをもたらす。
- 参考スコア(独自算出の注目度): 73.40883276013373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a surprisingly simple and efficient method for self-supervision of
3D backbone on automotive Lidar point clouds. We design a contrastive loss
between features of Lidar scans captured in the same scene. Several such
approaches have been proposed in the literature from PointConstrast, which uses
a contrast at the level of points, to the state-of-the-art TARL, which uses a
contrast at the level of segments, roughly corresponding to objects. While the
former enjoys a great simplicity of implementation, it is surpassed by the
latter, which however requires a costly pre-processing. In BEVContrast, we
define our contrast at the level of 2D cells in the Bird's Eye View plane.
Resulting cell-level representations offer a good trade-off between the
point-level representations exploited in PointContrast and segment-level
representations exploited in TARL: we retain the simplicity of PointContrast
(cell representations are cheap to compute) while surpassing the performance of
TARL in downstream semantic segmentation.
- Abstract(参考訳): 自動車のライダー点雲上での3次元バックボーンの自己監督を驚くほどシンプルかつ効率的に行う方法を提案する。
我々は,同じシーンで撮影されたLidarスキャンの特徴間の対照的な損失を設計する。
このようなアプローチは、ポイントのレベルでコントラストを使用するpointconstrastから、セグメントのレベルでコントラストを使用するstate-the-art tarlまでの文献で提案されている。
前者は実装の非常に単純さを享受しているが、後者はそれを上回っており、コストのかかる前処理を必要とする。
BEVContrastでは、鳥の眼球面の2次元細胞レベルでコントラストを定義する。
セルレベルの表現は、ポイントコントラストで利用されるポイントレベルの表現と、TARLで利用されるセグメントレベルの表現との間に良いトレードオフをもたらす:我々は、下流セマンティックセマンティックセマンティクスにおけるTARLのパフォーマンスを超越しながら、ポイントコントラスト(セル表現は計算に安価である)の単純さを維持します。
関連論文リスト
- Improving Bird's Eye View Semantic Segmentation by Task Decomposition [42.57351039508863]
元のBEVセグメンテーションタスクを,BEVマップ再構成とRGB-BEV機能アライメントという2つの段階に分割する。
我々のアプローチは、知覚と生成を異なるステップに組み合わせることの複雑さを単純化し、複雑で挑戦的なシーンを効果的に扱うためのモデルを構築します。
論文 参考訳(メタデータ) (2024-04-02T13:19:45Z) - PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic
Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。
また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。
プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文 参考訳(メタデータ) (2023-08-31T17:57:17Z) - Point Contrastive Prediction with Semantic Clustering for
Self-Supervised Learning on Point Cloud Videos [71.20376514273367]
本稿では,オブジェクト中心およびシーン中心のデータを対象とした一元的クラウドビデオ自己教師型学習フレームワークを提案する。
本手法は、広範囲の下流タスクにおいて教師付きタスクよりも優れる。
論文 参考訳(メタデータ) (2023-08-18T02:17:47Z) - Leveraging BEV Representation for 360-degree Visual Place Recognition [14.497501941931759]
本稿では,360度視覚位置認識(VPR)におけるBird's Eye View表現の利点について検討する。
本稿では,特徴抽出,特徴集約,視覚-LiDAR融合におけるBEV表現を利用した新しいネットワークアーキテクチャを提案する。
提案手法は,2つのデータセットのアブレーションおよび比較研究において評価される。
論文 参考訳(メタデータ) (2023-05-23T08:29:42Z) - A Cross-Scale Hierarchical Transformer with Correspondence-Augmented
Attention for inferring Bird's-Eye-View Semantic Segmentation [13.013635162859108]
マルチカメラビュー画像に条件付きBEVセマンティックセマンティックセマンティクスを推定することは、安価なデバイスとリアルタイム処理としてコミュニティで人気がある。
セマンティックセグメンテーション推論のための対応強化された注目度を持つ新しいクロススケール階層変換器を提案する。
マルチカメラビュー画像上でのBEVセマンティックセマンティックセグメンテーションの推測における最先端性能を有する。
論文 参考訳(メタデータ) (2023-04-07T13:52:47Z) - TransUPR: A Transformer-based Uncertain Point Refiner for LiDAR Point
Cloud Semantic Segmentation [6.587305905804226]
本稿ではトランスUPR(Transformer-based certain point refiner)を提案する。
我々のTransUPRは最先端のパフォーマンス、すなわちSemantic KITTIベンチマーク上の68.2%のIntersection over Union(mIoU)を達成する。
論文 参考訳(メタデータ) (2023-02-16T21:38:36Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - Dual Adaptive Transformations for Weakly Supervised Point Cloud
Segmentation [78.6612285236938]
弱制御点雲分割のための新しいDATモデル(textbfDual textbfAdaptive textbfTransformations)を提案する。
我々は,大規模S3DISデータセットとScanNet-V2データセットの2つの人気バックボーンを用いたDATモデルの評価を行った。
論文 参考訳(メタデータ) (2022-07-19T05:43:14Z) - Contrastive Boundary Learning for Point Cloud Segmentation [81.7289734276872]
本稿では,ポイントクラウドセグメンテーションのための新しい対照的な境界学習フレームワークを提案する。
実験により、CBLは、異なるベースラインを一貫して改善し、バウンダリにおける魅力的なパフォーマンスを達成するのに役立ちます。
論文 参考訳(メタデータ) (2022-03-10T10:08:09Z) - Bird's-Eye-View Panoptic Segmentation Using Monocular Frontal View
Images [4.449481309681663]
本研究では,Bird's-Eye-View (BEV) マップにおいて,高密度パノプティックセグメンテーションマップを直接予測するエンド・ツー・エンドの学習手法を提案する。
私たちのアーキテクチャはトップダウンパラダイムに従っており、新しい高密度トランスモジュールを組み込んでいます。
我々は、FV-BEV変換の感度を数学的に定式化し、BEV空間のピクセルをインテリジェントに重み付けすることができる。
論文 参考訳(メタデータ) (2021-08-06T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。