論文の概要: CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D
Point Cloud Understanding
- arxiv url: http://arxiv.org/abs/2203.00680v1
- Date: Tue, 1 Mar 2022 18:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 14:56:05.490626
- Title: CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D
Point Cloud Understanding
- Title(参考訳): CrossPoint: 3Dポイントクラウド理解のための自己監督型クロスモーダルコントラスト学習
- Authors: Mohamed Afham, Isuru Dissanayake, Dinithi Dissanayake, Amaya
Dharmasiri, Kanchana Thilakarathna, Ranga Rodrigo
- Abstract要約: CrossPointは、転送可能な3Dポイントクラウド表現を学習するための、単純なクロスモーダルコントラスト学習アプローチである。
提案手法は,従来の教師なし学習手法よりも,3次元オブジェクト分類やセグメンテーションなど,さまざまな下流タスクにおいて優れていた。
- 参考スコア(独自算出の注目度): 2.8661021832561757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Manual annotation of large-scale point cloud dataset for varying tasks such
as 3D object classification, segmentation and detection is often laborious
owing to the irregular structure of point clouds. Self-supervised learning,
which operates without any human labeling, is a promising approach to address
this issue. We observe in the real world that humans are capable of mapping the
visual concepts learnt from 2D images to understand the 3D world. Encouraged by
this insight, we propose CrossPoint, a simple cross-modal contrastive learning
approach to learn transferable 3D point cloud representations. It enables a
3D-2D correspondence of objects by maximizing agreement between point clouds
and the corresponding rendered 2D image in the invariant space, while
encouraging invariance to transformations in the point cloud modality. Our
joint training objective combines the feature correspondences within and across
modalities, thus ensembles a rich learning signal from both 3D point cloud and
2D image modalities in a self-supervised fashion. Experimental results show
that our approach outperforms the previous unsupervised learning methods on a
diverse range of downstream tasks including 3D object classification and
segmentation. Further, the ablation studies validate the potency of our
approach for a better point cloud understanding. Code and pretrained models are
available at http://github.com/MohamedAfham/CrossPoint.
- Abstract(参考訳): 3次元オブジェクト分類、セグメンテーション、検出などの様々なタスクのための大規模ポイントクラウドデータセットのマニュアルアノテーションは、ポイントクラウドの不規則な構造のため、しばしば困難である。
人間のラベル付けなしで動く自己教師型学習は、この問題に対処するための有望なアプローチである。
現実世界では、人間は2d画像から学習した視覚概念をマッピングして3d世界を理解することができると観察する。
そこで本研究では,移動可能な3Dポイントクラウド表現を学習するための,シンプルなクロスモーダルコントラスト学習手法であるCrossPointを提案する。
これは、点雲と対応する不変空間内の2次元画像との一致を最大化し、点雲様相の変換への不変性を助長することで、物体の3d-2次元対応を可能にする。
共同学習の目的は,3次元点クラウドと2次元画像モダリティの両方から,自己教師ありの方法でリッチな学習信号を合体させることである。
実験の結果,従来の教師なし学習手法よりも,3次元オブジェクトの分類やセグメンテーションなど,さまざまな下流タスクにおいて優れていた。
さらに,アブレーション研究は,より良質な点雲理解のためのアプローチの有効性を検証する。
コードと事前訓練されたモデルはhttp://github.com/MohamedAfham/CrossPoint.comで入手できる。
関連論文リスト
- Pic@Point: Cross-Modal Learning by Local and Global Point-Picture Correspondence [0.0]
構造的2D-3D対応に基づく効果的なコントラスト学習手法であるPic@Pointを提案する。
我々は,意味的および文脈的知識に富んだイメージキューを活用して,ポイントクラウド表現のガイド信号を提供する。
論文 参考訳(メタデータ) (2024-10-12T12:43:41Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - Point Cloud Self-supervised Learning via 3D to Multi-view Masked
Autoencoder [21.73287941143304]
Multi-Modality Masked AutoEncoders (MAE) 法は2次元画像と3次元点雲の両方を事前学習に利用している。
本稿では、3次元から多視点のマスク付きオートエンコーダを用いて、3次元点雲のマルチモーダル特性をフル活用する手法を提案する。
提案手法は,様々な下流タスクにおいて,最先端のタスクよりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2023-11-17T22:10:03Z) - Cross-Modal Information-Guided Network using Contrastive Learning for
Point Cloud Registration [17.420425069785946]
本稿では,ポイントクラウド登録のための新しいCross-Modal Information-Guided Network(CMIGNet)を提案する。
まず,点雲から投影された画像を取り込んで,アテンション機構を用いてモーダルな特徴を融合する。
コントラスト学習戦略は2つあり、すなわち、コントラスト学習とクロスモーダルコントラスト学習が重なり合う。
論文 参考訳(メタデータ) (2023-11-02T12:56:47Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - SimIPU: Simple 2D Image and 3D Point Cloud Unsupervised Pre-Training for
Spatial-Aware Visual Representations [85.38562724999898]
我々はSimIPUと呼ばれる2Dイメージと3Dポイントクラウドの教師なし事前学習戦略を提案する。
具体的には、モーダル内空間認識モジュールとモーダル間特徴相互作用モジュールからなるマルチモーダルコントラスト学習フレームワークを開発する。
我々の知る限りでは、屋外マルチモーダルデータセットに対する対照的な学習事前学習戦略を探求する最初の研究である。
論文 参考訳(メタデータ) (2021-12-09T03:27:00Z) - Unsupervised Learning of Fine Structure Generation for 3D Point Clouds
by 2D Projection Matching [66.98712589559028]
微細な構造を持つ3次元点雲生成のための教師なしアプローチを提案する。
本手法は2次元シルエット画像から異なる解像度で微細な3次元構造を復元することができる。
論文 参考訳(メタデータ) (2021-08-08T22:15:31Z) - Point Discriminative Learning for Unsupervised Representation Learning
on 3D Point Clouds [54.31515001741987]
3次元点雲上での教師なし表現学習のための点識別学習法を提案する。
我々は、中間レベルとグローバルレベルの特徴に新しい点識別損失を課すことにより、これを達成した。
提案手法は強力な表現を学習し,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2021-08-04T15:11:48Z) - Self-supervised Feature Learning by Cross-modality and Cross-view
Correspondences [32.01548991331616]
本稿では,2次元画像特徴と3次元ポイントクラウド特徴の両方を学習するための,自己指導型学習手法を提案する。
注釈付きラベルを使わずに、クロスモダリティとクロスビュー対応を利用する。
学習した2次元特徴と3次元特徴の有効性を5つの異なるタスクで伝達することによって評価する。
論文 参考訳(メタデータ) (2020-04-13T02:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。