論文の概要: Cross-modal & Cross-domain Learning for Unsupervised LiDAR Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2308.02883v1
- Date: Sat, 5 Aug 2023 14:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 18:09:14.388119
- Title: Cross-modal & Cross-domain Learning for Unsupervised LiDAR Semantic
Segmentation
- Title(参考訳): 教師なしLiDARセマンティックセグメンテーションのためのクロスモーダル・クロスドメイン学習
- Authors: Yiyang Chen, Shanshan Zhao, Changxing Ding, Liyao Tang, Chaoyue Wang,
Dacheng Tao
- Abstract要約: 対象領域における3次元LiDARセマンティックセマンティックセグメンテーション(DLSS)のラベル付けコストを軽減するため、ペア化された2次元画像と3次元LiDARデータに対して、クロスモーダルドメイン適応について検討した。
本稿では,セマンティックアノテーションを持つ2次元データセットとペアだが注釈のない2次元画像と3次元LiDARデータ(ターゲット)が利用できる新しい3DLSS設定について検討する。
このシナリオで3DLSSを実現するために,クロスモーダル・クロスドメイン学習(CoMoDaL)を提案する。
- 参考スコア(独自算出の注目度): 82.47872784972861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, cross-modal domain adaptation has been studied on the paired
2D image and 3D LiDAR data to ease the labeling costs for 3D LiDAR semantic
segmentation (3DLSS) in the target domain. However, in such a setting the
paired 2D and 3D data in the source domain are still collected with additional
effort. Since the 2D-3D projections can enable the 3D model to learn semantic
information from the 2D counterpart, we ask whether we could further remove the
need of source 3D data and only rely on the source 2D images. To answer it,
this paper studies a new 3DLSS setting where a 2D dataset (source) with
semantic annotations and a paired but unannotated 2D image and 3D LiDAR data
(target) are available. To achieve 3DLSS in this scenario, we propose
Cross-Modal and Cross-Domain Learning (CoMoDaL). Specifically, our CoMoDaL aims
at modeling 1) inter-modal cross-domain distillation between the unpaired
source 2D image and target 3D LiDAR data, and 2) the intra-domain cross-modal
guidance between the target 2D image and 3D LiDAR data pair. In CoMoDaL, we
propose to apply several constraints, such as point-to-pixel and
prototype-to-pixel alignments, to associate the semantics in different
modalities and domains by constructing mixed samples in two modalities. The
experimental results on several datasets show that in the proposed setting, the
developed CoMoDaL can achieve segmentation without the supervision of labeled
LiDAR data. Ablations are also conducted to provide more analysis. Code will be
available publicly.
- Abstract(参考訳): 近年,対象領域における3次元LiDARセマンティックセグメンテーション(DLSS)のラベリングコストを緩和するために,2次元画像と3次元LiDARデータを用いたクロスモーダルドメイン適応法が研究されている。
しかし、そのような設定では、ソースドメイン内のペア2Dと3Dデータは、追加の努力で収集される。
2D-3Dプロジェクションは、3Dモデルが2Dモデルから意味情報を学習できるようにするため、ソース3Dデータの必要性をさらに排除し、ソース2D画像のみに依存するかどうかを問う。
そこで本研究では,セマンティックアノテーションを持つ2次元データセット(ソース)と,ペアだが注釈のない2次元画像と3次元LiDARデータ(ターゲット)が利用できる新しい3DLSS環境について検討する。
このシナリオで3DLSSを実現するために,クロスモーダル・クロスドメイン学習(CoMoDaL)を提案する。
具体的には、CoMoDaLはモデリングを目指しています。
1)非対向源2d画像とターゲット3dlidarデータ間のモード間クロスドメイン蒸留、及び
2) 対象2次元画像と3次元LiDARデータペア間のドメイン内クロスモーダルガイダンス。
共モーダルでは、異なるモダリティとドメインのセマンティクスを2つのモダリティの混合サンプルを構築して関連付けるために、点から画素へのアライメントやプロトタイプからピクセルへのアライメントといったいくつかの制約を適用することを提案する。
いくつかのデータセットに対する実験結果から,提案手法では,ラベル付きLiDARデータの監督なしに,CoMoDaLのセグメンテーションを実現することができることがわかった。
さらなる分析を行うためにアブレーションも実施されている。
コードは公開されます。
関連論文リスト
- LiOn-XA: Unsupervised Domain Adaptation via LiDAR-Only Cross-Modal Adversarial Training [61.26381389532653]
LiOn-XAは、LiDAR-Only Cross-Modal (X)学習と3D LiDARポイントクラウドセマンティックセマンティックセグメンテーションのためのAdversarial Trainingを組み合わせた、教師なしドメイン適応(UDA)アプローチである。
3つの現実的適応シナリオに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-10-21T09:50:17Z) - Cross-Dimensional Medical Self-Supervised Representation Learning Based on a Pseudo-3D Transformation [68.60747298865394]
擬似3D変換(CDSSL-P3D)に基づく新しい三次元SSLフレームワークを提案する。
具体的には、2D画像を3Dデータに整合したフォーマットに変換するim2colアルゴリズムに基づく画像変換を提案する。
この変換は2次元および3次元データのシームレスな統合を可能にし、3次元医用画像解析のための相互教師あり学習を容易にする。
論文 参考訳(メタデータ) (2024-06-03T02:57:25Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - LWSIS: LiDAR-guided Weakly Supervised Instance Segmentation for
Autonomous Driving [34.119642131912485]
より巧妙なフレームワークであるLiDAR誘導弱監視インスタンス(LWSIS)を提示する。
LWSISは市販の3Dデータ、すなわちポイントクラウドと3Dボックスを2Dイメージインスタンスセグメンテーションモデルをトレーニングするための自然な弱い監督手段として使用している。
我々のLWSISは、訓練中のマルチモーダルデータの補完情報を利用するだけでなく、密集した2Dマスクのコストを大幅に削減します。
論文 参考訳(メタデータ) (2022-12-07T08:08:01Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Sparse-to-dense Feature Matching: Intra and Inter domain Cross-modal
Learning in Domain Adaptation for 3D Semantic Segmentation [46.110739803985076]
ドメイン適応のための多モード情報相互作用の十分性を高めるために,動的スパース・ツー・ディエンス・クロスモーダル学習(DsCML)を提案する。
ドメイン間クロスモーダル学習では,2次元および3次元データ上でのクロスモーダル適応学習(CMAL)をさらに進める。
本研究では,日中・日中・日中・日中・データセットなど,多目的領域適応設定によるモデルの評価を行った。
論文 参考訳(メタデータ) (2021-07-30T15:55:55Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。