論文の概要: 2DPASS: 2D Priors Assisted Semantic Segmentation on LiDAR Point Clouds
- arxiv url: http://arxiv.org/abs/2207.04397v1
- Date: Sun, 10 Jul 2022 06:52:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 14:25:35.094973
- Title: 2DPASS: 2D Priors Assisted Semantic Segmentation on LiDAR Point Clouds
- Title(参考訳): 2dpass:2d priors によるlidar point cloudのセマンティクスセグメンテーション
- Authors: Xu Yan, Jiantao Gao, Chaoda Zheng, Chao Zheng, Ruimao Zhang, Shenghui
Cui, Zhen Li
- Abstract要約: 本稿では, 2DPASS (2D Priors Assisted Semantic) を提案する。
2DPASSは、マルチモーダルデータからよりリッチなセマンティクスと構造情報を取得し、それをオンラインで3Dネットワークに蒸留する。
2つの大規模ベンチマークで最先端を達成している。
- 参考スコア(独自算出の注目度): 18.321397768570154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As camera and LiDAR sensors capture complementary information used in
autonomous driving, great efforts have been made to develop semantic
segmentation algorithms through multi-modality data fusion. However,
fusion-based approaches require paired data, i.e., LiDAR point clouds and
camera images with strict point-to-pixel mappings, as the inputs in both
training and inference, which seriously hinders their application in practical
scenarios. Thus, in this work, we propose the 2D Priors Assisted Semantic
Segmentation (2DPASS), a general training scheme, to boost the representation
learning on point clouds, by fully taking advantage of 2D images with rich
appearance. In practice, by leveraging an auxiliary modal fusion and
multi-scale fusion-to-single knowledge distillation (MSFSKD), 2DPASS acquires
richer semantic and structural information from the multi-modal data, which are
then online distilled to the pure 3D network. As a result, equipped with
2DPASS, our baseline shows significant improvement with only point cloud
inputs. Specifically, it achieves the state-of-the-arts on two large-scale
benchmarks (i.e. SemanticKITTI and NuScenes), including top-1 results in both
single and multiple scan(s) competitions of SemanticKITTI.
- Abstract(参考訳): カメラとLiDARセンサーは、自律運転で使用される補完情報を取得するため、多モードデータ融合によるセマンティックセグメンテーションアルゴリズムの開発に多大な努力が払われている。
しかし、融合ベースのアプローチでは、トレーニングと推論の両方の入力として、LiDARポイントクラウドとカメライメージの厳密なポイント・ツー・ピクセルマッピングのようなペアデータを必要とする。
そこで本研究では,2dプリエント支援意味セグメンテーション(semantic segmentation, 2dpass)を提案する。
実際、2DPASSは、補助的なモーダル融合とマルチスケールフュージョン・ツー・シングル・ナレッジ蒸留(MSFSKD)を利用して、マルチモーダルデータからよりリッチなセマンティックおよび構造情報を取得し、純3Dネットワークにオンライン蒸留する。
その結果, 2DPASS を組み込んだベースラインでは, ポイントクラウド入力のみによる大幅な改善が見られた。
具体的には、SemanticKITTIとNuScenesの2つの大規模ベンチマーク(セマンティックKITTIとNuScenes)において、シングルスキャンとマルチスキャンの両コンペティションのトップ1結果を含む最先端技術を実現している。
関連論文リスト
- Cross-Modal Information-Guided Network using Contrastive Learning for
Point Cloud Registration [17.420425069785946]
本稿では,ポイントクラウド登録のための新しいCross-Modal Information-Guided Network(CMIGNet)を提案する。
まず,点雲から投影された画像を取り込んで,アテンション機構を用いてモーダルな特徴を融合する。
コントラスト学習戦略は2つあり、すなわち、コントラスト学習とクロスモーダルコントラスト学習が重なり合う。
論文 参考訳(メタデータ) (2023-11-02T12:56:47Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - 3D Point Cloud Pre-training with Knowledge Distillation from 2D Images [128.40422211090078]
本稿では,2次元表現学習モデルから直接知識を取得するために,3次元ポイントクラウド事前学習モデルの知識蒸留手法を提案する。
具体的には、3Dポイントクラウドから概念特徴を抽出し、2D画像からの意味情報と比較するクロスアテンション機構を提案する。
このスキームでは,2次元教師モデルに含まれるリッチな情報から,クラウド事前学習モデルを直接学習する。
論文 参考訳(メタデータ) (2022-12-17T23:21:04Z) - LWSIS: LiDAR-guided Weakly Supervised Instance Segmentation for
Autonomous Driving [34.119642131912485]
より巧妙なフレームワークであるLiDAR誘導弱監視インスタンス(LWSIS)を提示する。
LWSISは市販の3Dデータ、すなわちポイントクラウドと3Dボックスを2Dイメージインスタンスセグメンテーションモデルをトレーニングするための自然な弱い監督手段として使用している。
我々のLWSISは、訓練中のマルチモーダルデータの補完情報を利用するだけでなく、密集した2Dマスクのコストを大幅に削減します。
論文 参考訳(メタデータ) (2022-12-07T08:08:01Z) - SimIPU: Simple 2D Image and 3D Point Cloud Unsupervised Pre-Training for
Spatial-Aware Visual Representations [85.38562724999898]
我々はSimIPUと呼ばれる2Dイメージと3Dポイントクラウドの教師なし事前学習戦略を提案する。
具体的には、モーダル内空間認識モジュールとモーダル間特徴相互作用モジュールからなるマルチモーダルコントラスト学習フレームワークを開発する。
我々の知る限りでは、屋外マルチモーダルデータセットに対する対照的な学習事前学習戦略を探求する最初の研究である。
論文 参考訳(メタデータ) (2021-12-09T03:27:00Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。