論文の概要: Cross-Modal Self-Supervised Learning with Effective Contrastive Units for LiDAR Point Clouds
- arxiv url: http://arxiv.org/abs/2409.06827v1
- Date: Tue, 10 Sep 2024 19:11:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 17:07:53.250041
- Title: Cross-Modal Self-Supervised Learning with Effective Contrastive Units for LiDAR Point Clouds
- Title(参考訳): LiDAR点群に対する効果的なコントラスト単位を用いたクロスモーダル自己監督学習
- Authors: Mu Cai, Chenxu Luo, Yong Jae Lee, Xiaodong Yang,
- Abstract要約: LiDARポイントクラウドにおける3D知覚は、自動運転車が3D環境で適切に機能するためには不可欠である。
3次元知覚モデルの自己教師付き事前学習への関心が高まっている。
我々は、自動運転点雲に適したインスタンス認識および類似性バランスのコントラストユニットを提案する。
- 参考スコア(独自算出の注目度): 34.99995524090838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D perception in LiDAR point clouds is crucial for a self-driving vehicle to properly act in 3D environment. However, manually labeling point clouds is hard and costly. There has been a growing interest in self-supervised pre-training of 3D perception models. Following the success of contrastive learning in images, current methods mostly conduct contrastive pre-training on point clouds only. Yet an autonomous driving vehicle is typically supplied with multiple sensors including cameras and LiDAR. In this context, we systematically study single modality, cross-modality, and multi-modality for contrastive learning of point clouds, and show that cross-modality wins over other alternatives. In addition, considering the huge difference between the training sources in 2D images and 3D point clouds, it remains unclear how to design more effective contrastive units for LiDAR. We therefore propose the instance-aware and similarity-balanced contrastive units that are tailored for self-driving point clouds. Extensive experiments reveal that our approach achieves remarkable performance gains over various point cloud models across the downstream perception tasks of LiDAR based 3D object detection and 3D semantic segmentation on the four popular benchmarks including Waymo Open Dataset, nuScenes, SemanticKITTI and ONCE.
- Abstract(参考訳): LiDARポイントクラウドにおける3D知覚は、自動運転車が3D環境で適切に機能するためには不可欠である。
しかし、手動でポイントクラウドをラベル付けするのは難しくてコストがかかる。
3次元知覚モデルの自己教師付き事前学習への関心が高まっている。
画像におけるコントラスト学習の成功に続いて、現在の手法は主に点雲のみでコントラスト事前学習を行っている。
しかし、自律走行車は通常、カメラやLiDARを含む複数のセンサーが供給される。
この文脈では、点雲の対照的な学習のために、単一モダリティ、クロスモダリティ、マルチモダリティを体系的に研究し、クロスモダリティが他の選択肢に勝っていることを示す。
さらに,2次元画像と3次元点雲のトレーニング源との大きな違いを考慮すると,LiDARのより効果的なコントラストユニットの設計方法が不明である。
そこで我々は、自律点雲に適したインスタンス認識および類似性バランスの対照的なユニットを提案する。
Waymo Open Dataset, nuScenes, SemanticKITTI, ONCEの4つのベンチマークにおいて,LiDARに基づく3Dオブジェクト検出と3Dセマンティックセマンティックセマンティックセマンティクスの下流認識タスクの様々なポイントクラウドモデルに対して,本手法が顕著な性能向上を実現していることを示す。
関連論文リスト
- GS-PT: Exploiting 3D Gaussian Splatting for Comprehensive Point Cloud Understanding via Self-supervised Learning [15.559369116540097]
ポイントクラウドの自己教師型学習は、ラベルのない3Dデータを活用して、手動のアノテーションに頼ることなく意味のある表現を学習することを目的としている。
本稿では,3Dガウススプラッティング(3DGS)をポイントクラウドの自己教師型学習に初めて統合したGS-PTを提案する。
我々のパイプラインは、トランスフォーマーを自己教師付き事前学習のバックボーンとして利用し、3DGSによる新しいコントラスト学習タスクを導入している。
論文 参考訳(メタデータ) (2024-09-08T03:46:47Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data [80.14669385741202]
本稿では,自律運転データに適した3次元知覚モデルのための自己教師付き事前学習手法を提案する。
我々は、自動走行装置における同期・校正画像とLidarセンサーの可用性を活用している。
私たちのメソッドは、ポイントクラウドや画像アノテーションを一切必要としません。
論文 参考訳(メタデータ) (2022-03-30T12:40:30Z) - LiDAR-based 4D Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,両タスクの現在の最先端手法よりも優れた精度を実現する。
DS-Netを4次元パノプティカルLiDARセグメンテーションに拡張し、一列のLiDARフレーム上で時間的に統一されたインスタンスクラスタリングを行う。
論文 参考訳(メタデータ) (2022-03-14T15:25:42Z) - PillarGrid: Deep Learning-based Cooperative Perception for 3D Object
Detection from Onboard-Roadside LiDAR [15.195933965761645]
我々は,複数の3次元LiDARからの情報を融合した新しい協調認識手法であるtextitPillarGridを提案する。
PillarGrid は,1) 点雲の協調前処理,2) 軸方向のボキセル化と特徴抽出,3) 複数のセンサからの特徴のグリッド方向の深層融合,4) 畳み込みニューラルネットワーク(CNN) に基づく3Dオブジェクト検出である。
広汎な実験により、PillarGridはSOTA単一LiDARに基づく3Dオブジェクト検出法よりも精度と範囲を大きなマージンで上回ることがわかった。
論文 参考訳(メタデータ) (2022-03-12T02:28:41Z) - CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D
Point Cloud Understanding [2.8661021832561757]
CrossPointは、転送可能な3Dポイントクラウド表現を学習するための、単純なクロスモーダルコントラスト学習アプローチである。
提案手法は,従来の教師なし学習手法よりも,3次元オブジェクト分類やセグメンテーションなど,さまざまな下流タスクにおいて優れていた。
論文 参考訳(メタデータ) (2022-03-01T18:59:01Z) - SimIPU: Simple 2D Image and 3D Point Cloud Unsupervised Pre-Training for
Spatial-Aware Visual Representations [85.38562724999898]
我々はSimIPUと呼ばれる2Dイメージと3Dポイントクラウドの教師なし事前学習戦略を提案する。
具体的には、モーダル内空間認識モジュールとモーダル間特徴相互作用モジュールからなるマルチモーダルコントラスト学習フレームワークを開発する。
我々の知る限りでは、屋外マルチモーダルデータセットに対する対照的な学習事前学習戦略を探求する最初の研究である。
論文 参考訳(メタデータ) (2021-12-09T03:27:00Z) - Multi-Frame to Single-Frame: Knowledge Distillation for 3D Object
Detection [36.238956089801825]
我々は、知識蒸留を用いて、訓練時に高品質な入力で訓練されたモデルと、推論時に低品質な入力で試験されたモデルとのギャップを埋める。
まず、トレーニング時にのみ利用可能な余分な情報を用いて複数のフレームから生成された高密度点雲上で物体検出モデルを訓練する。
そして、両方のモデルの特徴に対して一貫性のある規則化を施し、スパース単一フレームの点群で同じモデルを訓練する。
論文 参考訳(メタデータ) (2020-09-24T17:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。