論文の概要: Masked Clustering Prediction for Unsupervised Point Cloud Pre-training
- arxiv url: http://arxiv.org/abs/2508.08910v1
- Date: Tue, 12 Aug 2025 12:58:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.427815
- Title: Masked Clustering Prediction for Unsupervised Point Cloud Pre-training
- Title(参考訳): 教師なし点雲事前学習のためのマスククラスタリング予測
- Authors: Bin Ren, Xiaoshui Huang, Mengyuan Liu, Hong Liu, Fabio Poiesi, Nicu Sebe, Guofeng Mei,
- Abstract要約: MaskCluは、3Dポイントクラウド上でのViTの教師なし事前トレーニング手法である。
マスク付きポイントモデリングとクラスタリングベースの学習を統合している。
- 参考スコア(独自算出の注目度): 61.11226004056774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers (ViTs) have recently been widely applied to 3D point cloud understanding, with masked autoencoding as the predominant pre-training paradigm. However, the challenge of learning dense and informative semantic features from point clouds via standard ViTs remains underexplored. We propose MaskClu, a novel unsupervised pre-training method for ViTs on 3D point clouds that integrates masked point modeling with clustering-based learning. MaskClu is designed to reconstruct both cluster assignments and cluster centers from masked point clouds, thus encouraging the model to capture dense semantic information. Additionally, we introduce a global contrastive learning mechanism that enhances instance-level feature learning by contrasting different masked views of the same point cloud. By jointly optimizing these complementary objectives, i.e., dense semantic reconstruction, and instance-level contrastive learning. MaskClu enables ViTs to learn richer and more semantically meaningful representations from 3D point clouds. We validate the effectiveness of our method via multiple 3D tasks, including part segmentation, semantic segmentation, object detection, and classification, where MaskClu sets new competitive results. The code and models will be released at:https://github.com/Amazingren/maskclu.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、最近3Dポイントクラウド理解に広く適用されており、マスク付きオートエンコーディングが主要な事前学習パラダイムとなっている。
しかし、標準的なViTを通してポイントクラウドから密集した情報的セマンティックな特徴を学ぶという課題は、まだ解明されていない。
マスク付き点モデリングとクラスタリングに基づく学習を統合した,3次元点クラウド上でのViTの教師なし事前学習手法であるMaskCluを提案する。
MaskCluは、クラスタ割り当てとクラスタセンターの両方をマスクされたポイントクラウドから再構築するように設計されている。
さらに、同一点の異なるマスキングビューを対比することにより、インスタンスレベルの特徴学習を強化するグローバルコントラスト学習機構を導入する。
これらの相補的目的、すなわち密接な意味再構成とインスタンスレベルのコントラスト学習を共同で最適化する。
MaskCluを使えば、ViTはよりリッチで意味のある表現を3Dポイントクラウドから学べる。
提案手法の有効性を,MaskCluが新たな競争結果を設定する部分分割,セマンティックセマンティックセグメンテーション,オブジェクト検出,分類を含む複数の3次元タスクを用いて検証する。
コードとモデルは、https://github.com/Amazingren/maskclu.comでリリースされる。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Clustering based Point Cloud Representation Learning for 3D Analysis [80.88995099442374]
本稿では,ポイントクラウド分析のためのクラスタリングに基づく教師付き学習手法を提案する。
現在のデファクトでシーンワイドなトレーニングパラダイムとは異なり、我々のアルゴリズムは点埋め込み空間上でクラス内のクラスタリングを行う。
我々のアルゴリズムは、有名なポイントクラウドセグメンテーションデータセットの顕著な改善を示している。
論文 参考訳(メタデータ) (2023-07-27T03:42:12Z) - CPCM: Contextual Point Cloud Modeling for Weakly-supervised Point Cloud
Semantic Segmentation [60.0893353960514]
疎アノテーションを用いた弱教師付きポイントクラウドセマンティックセマンティックセグメンテーションの課題について検討する。
本研究では,地域マスキング(RegionMask)戦略とコンテキストマスキングトレーニング(CMT)手法の2つの部分からなるコンテキストポイントクラウドモデリング(CPCM)手法を提案する。
論文 参考訳(メタデータ) (2023-07-19T04:41:18Z) - Self-supervised adversarial masking for 3D point cloud representation
learning [0.38233569758620056]
本稿では,点雲のマスキング関数を学習するための新しい逆法であるPointCAMを紹介する。
従来の手法と比較して,マスクをランダムに選択するのではなく,マスクの選択方法を学習する補助的ネットワークの適用を仮定する。
以上の結果から,学習したマスキング関数は,様々な下流タスクにおいて,最先端ないし競争的な性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-07-11T15:11:06Z) - Data Augmentation-free Unsupervised Learning for 3D Point Cloud
Understanding [61.30276576646909]
ソフトクラスタリング(SoftClu)と呼ばれる,移動可能な点レベルの特徴を学習するための,ポイントクラウドに対する拡張不要な教師なしアプローチを提案する。
我々は,クラスタに対するポイントのアフィリエイトをプロキシとして利用し,擬似ラベル予測タスクを通じて自己学習を可能にする。
論文 参考訳(メタデータ) (2022-10-06T10:18:16Z) - Masked Autoencoders in 3D Point Cloud Representation Learning [7.617783375837524]
3Dポイントクラウド表現学習におけるマスク付きオートエンコーダを提案する(略してMAE3D)。
最初はインプットポイントクラウドをパッチに分割し、その一部をマスクし、次にPatch Embedding Moduleを使って未成熟のパッチの特徴を抽出しました。
総合的な実験により、ポイントクラウドパッチからMAE3Dによって抽出された局所的特徴が下流分類タスクに有用であることが示されている。
論文 参考訳(メタデータ) (2022-07-04T16:13:27Z) - Masked Discrimination for Self-Supervised Learning on Point Clouds [27.652157544218234]
マスク付きオートエンコーディングは、画像と言語領域における自己教師型学習において大きな成功を収めた。
PointNetのような標準的なバックボーンは、トレーニング中にマスクによって導入された分散ミスマッチのトレーニングとテストのミスマッチを適切に処理できない。
我々はこのギャップを、ポイントクラウドのための差別マスク事前学習フレームワークMaskPointを提案し、橋渡しする。
論文 参考訳(メタデータ) (2022-03-21T17:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。