論文の概要: Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration
- arxiv url: http://arxiv.org/abs/2401.12452v2
- Date: Mon, 26 Aug 2024 02:50:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 00:36:11.240564
- Title: Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration
- Title(参考訳): 2D-3DニューラルキャリブレーションによるLiDAR3D点雲の自己教師付き学習
- Authors: Yifan Zhang, Siyu Ren, Junhui Hou, Jinjian Wu, Yixuan Yuan, Guangming Shi,
- Abstract要約: 本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
- 参考スコア(独自算出の注目度): 107.61458720202984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel self-supervised learning framework for enhancing 3D perception in autonomous driving scenes. Specifically, our approach, namely NCLR, focuses on 2D-3D neural calibration, a novel pretext task that estimates the rigid pose aligning camera and LiDAR coordinate systems. First, we propose the learnable transformation alignment to bridge the domain gap between image and point cloud data, converting features into a unified representation space for effective comparison and matching. Second, we identify the overlapping area between the image and point cloud with the fused features. Third, we establish dense 2D-3D correspondences to estimate the rigid pose. The framework not only learns fine-grained matching from points to pixels but also achieves alignment of the image and point cloud at a holistic level, understanding their relative pose. We demonstrate the efficacy of NCLR by applying the pre-trained backbone to downstream tasks, such as LiDAR-based 3D semantic segmentation, object detection, and panoptic segmentation. Comprehensive experiments on various datasets illustrate the superiority of NCLR over existing self-supervised methods. The results confirm that joint learning from different modalities significantly enhances the network's understanding abilities and effectiveness of learned representation. The code is publicly available at https://github.com/Eaphan/NCLR.
- Abstract(参考訳): 本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
具体的には,2D-3Dニューラルキャリブレーション(2D-3Dニューラルキャリブレーション)に焦点をあてる。
まず、画像と点クラウドデータの領域ギャップを埋める学習可能な変換アライメントを提案し、効率的な比較とマッチングのために特徴を統一表現空間に変換する。
第2に、画像と点雲の間の重なり合う領域と、融合した特徴とを識別する。
第三に、厳密なポーズを推定するために密度の高い2D-3D対応を確立する。
このフレームワークは、点から画素までのきめ細かいマッチングを学習するだけでなく、画像と点雲を全体的レベルでアライメントし、相対的なポーズを理解する。
我々は,LDARに基づく3Dセマンティックセマンティックセグメンテーション,オブジェクト検出,汎光学セグメンテーションなどの下流タスクに事前学習したバックボーンを適用することにより,NCLRの有効性を示す。
様々なデータセットに関する総合的な実験は、既存の自己管理手法よりもNCLRの方が優れていることを示している。
その結果,異なるモダリティからの共同学習によってネットワークの理解能力や学習表現の有効性が著しく向上することが確認された。
コードはhttps://github.com/Eaphan/NCLR.comで公開されている。
関連論文リスト
- HVDistill: Transferring Knowledge from Images to Point Clouds via Unsupervised Hybrid-View Distillation [106.09886920774002]
本稿では,HVDistillと呼ばれるハイブリッドビューに基づく知識蒸留フレームワークを提案する。
提案手法は,スクラッチからトレーニングしたベースラインに対して一貫した改善を実現し,既存のスキームを大幅に上回っている。
論文 参考訳(メタデータ) (2024-03-18T14:18:08Z) - Cross-Modal Information-Guided Network using Contrastive Learning for
Point Cloud Registration [17.420425069785946]
本稿では,ポイントクラウド登録のための新しいCross-Modal Information-Guided Network(CMIGNet)を提案する。
まず,点雲から投影された画像を取り込んで,アテンション機構を用いてモーダルな特徴を融合する。
コントラスト学習戦略は2つあり、すなわち、コントラスト学習とクロスモーダルコントラスト学習が重なり合う。
論文 参考訳(メタデータ) (2023-11-02T12:56:47Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - Visual Reinforcement Learning with Self-Supervised 3D Representations [15.991546692872841]
運動制御のための3次元表現の自己教師型学習のための統一的な枠組みを提案する。
本手法は,2次元表現学習法と比較して,シミュレーション操作タスクにおけるサンプル効率の向上を享受する。
論文 参考訳(メタデータ) (2022-10-13T17:59:55Z) - Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data [80.14669385741202]
本稿では,自律運転データに適した3次元知覚モデルのための自己教師付き事前学習手法を提案する。
我々は、自動走行装置における同期・校正画像とLidarセンサーの可用性を活用している。
私たちのメソッドは、ポイントクラウドや画像アノテーションを一切必要としません。
論文 参考訳(メタデータ) (2022-03-30T12:40:30Z) - CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D
Point Cloud Understanding [2.8661021832561757]
CrossPointは、転送可能な3Dポイントクラウド表現を学習するための、単純なクロスモーダルコントラスト学習アプローチである。
提案手法は,従来の教師なし学習手法よりも,3次元オブジェクト分類やセグメンテーションなど,さまざまな下流タスクにおいて優れていた。
論文 参考訳(メタデータ) (2022-03-01T18:59:01Z) - SimIPU: Simple 2D Image and 3D Point Cloud Unsupervised Pre-Training for
Spatial-Aware Visual Representations [85.38562724999898]
我々はSimIPUと呼ばれる2Dイメージと3Dポイントクラウドの教師なし事前学習戦略を提案する。
具体的には、モーダル内空間認識モジュールとモーダル間特徴相互作用モジュールからなるマルチモーダルコントラスト学習フレームワークを開発する。
我々の知る限りでは、屋外マルチモーダルデータセットに対する対照的な学習事前学習戦略を探求する最初の研究である。
論文 参考訳(メタデータ) (2021-12-09T03:27:00Z) - Self-supervised Feature Learning by Cross-modality and Cross-view
Correspondences [32.01548991331616]
本稿では,2次元画像特徴と3次元ポイントクラウド特徴の両方を学習するための,自己指導型学習手法を提案する。
注釈付きラベルを使わずに、クロスモダリティとクロスビュー対応を利用する。
学習した2次元特徴と3次元特徴の有効性を5つの異なるタスクで伝達することによって評価する。
論文 参考訳(メタデータ) (2020-04-13T02:57:25Z) - Learning 2D-3D Correspondences To Solve The Blind Perspective-n-Point
Problem [98.92148855291363]
本稿では、6-DoFの絶対カメラポーズ2D--3D対応を同時に解決するディープCNNモデルを提案する。
実データとシミュレーションデータの両方でテストした結果,本手法は既存手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-03-15T04:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。