論文の概要: Dual-Branch Center-Surrounding Contrast: Rethinking Contrastive Learning for 3D Point Clouds
- arxiv url: http://arxiv.org/abs/2512.08673v1
- Date: Tue, 09 Dec 2025 14:56:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:08.010248
- Title: Dual-Branch Center-Surrounding Contrast: Rethinking Contrastive Learning for 3D Point Clouds
- Title(参考訳): Dual-Branch Center-Surrounding Contrast:3次元点雲に対するコントラスト学習の再考
- Authors: Shaofeng Zhang, Xuanqi Chen, Xiangdong Zhang, Sitong Wu, Junchi Yan,
- Abstract要約: 本稿では,DualBranch textbfCentertextbfSurrounding textbfContrast (CSCon) フレームワークを提案する。
FULLおよびALLプロトコルでは、CSConは生成メソッドに匹敵するパフォーマンスを達成する。
提案手法は, クロスモーダルなアプローチを超越して, 最先端の成果が得られる。
- 参考スコア(独自算出の注目度): 55.5576033344795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing self-supervised learning (SSL) approaches for 3D point clouds are dominated by generative methods based on Masked Autoencoders (MAE). However, these generative methods have been proven to struggle to capture high-level discriminative features effectively, leading to poor performance on linear probing and other downstream tasks. In contrast, contrastive methods excel in discriminative feature representation and generalization ability on image data. Despite this, contrastive learning (CL) in 3D data remains scarce. Besides, simply applying CL methods designed for 2D data to 3D fails to effectively learn 3D local details. To address these challenges, we propose a novel Dual-Branch \textbf{C}enter-\textbf{S}urrounding \textbf{Con}trast (CSCon) framework. Specifically, we apply masking to the center and surrounding parts separately, constructing dual-branch inputs with center-biased and surrounding-biased representations to better capture rich geometric information. Meanwhile, we introduce a patch-level contrastive loss to further enhance both high-level information and local sensitivity. Under the FULL and ALL protocols, CSCon achieves performance comparable to generative methods; under the MLP-LINEAR, MLP-3, and ONLY-NEW protocols, our method attains state-of-the-art results, even surpassing cross-modal approaches. In particular, under the MLP-LINEAR protocol, our method outperforms the baseline (Point-MAE) by \textbf{7.9\%}, \textbf{6.7\%}, and \textbf{10.3\%} on the three variants of ScanObjectNN, respectively. The code will be made publicly available.
- Abstract(参考訳): 3Dポイントクラウドに対する既存の自己教師あり学習(SSL)アプローチは、Masked Autoencoders (MAE)に基づく生成手法が支配している。
しかしながら、これらの生成手法は、高レベルの識別的特徴を効果的に捉えるのに苦労していることが証明されており、線形探索やその他の下流処理における性能の低下につながっている。
対照的に、画像データ上での識別的特徴表現と一般化能力はコントラスト的手法が優れている。
それにもかかわらず、3Dデータにおけるコントラスト学習(CL)は依然として少ない。
さらに、単に2Dデータ用に設計されたCLメソッドを3Dに適用しても、3Dの局所的な詳細を効果的に学習できない。
これらの課題に対処するために、新しいDual-Branch \textbf{C}enter-\textbf{S}urrounding \textbf{Con}trast (CSCon)フレームワークを提案する。
具体的には、中心部と周辺部を別々にマスキングし、中心バイアスと周辺バイアスの表現による二重ブランチ入力を構築し、リッチな幾何学的情報をよりよく取得する。
一方,高レベル情報と局所感度の両方を高めるために,パッチレベルのコントラスト損失を導入する。
MLP-LINEAR, MLP-3, ONLY-NEW プロトコルでは, CSCon は生成手法に匹敵する性能を実現している。
特に, MLP-LINEAR プロトコルでは, ScanObjectNN の 3 つの変種に対して, 基本ライン (Point-MAE) を \textbf{7.9\%} , \textbf{6.7\%} , \textbf{10.3\%} でそれぞれ上回っている。
コードは公開されます。
関連論文リスト
- PointDico: Contrastive 3D Representation Learning Guided by Diffusion Models [5.077352707415241]
textitPointDicoは、生成的モデリングの認知と、知識の蒸留を通じて、相互モーダルなコントラスト学習の両方から学習する。
textitPointDicoは、ScanObjectNNのtextbf94.32%の精度、ShapeNetPartのtextbf86.5%のInst.mIoUといった3D表現学習において、新しい最先端の3D表現学習を実現している。
論文 参考訳(メタデータ) (2025-12-09T07:57:56Z) - CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning [43.7594705101778]
CLAPと呼ばれる画像と点雲の教師なし微分レンダリングに基づく事前学習手法を提案する。
本手法は、事前学習のためのより情報性の高い点/画素を選択するために、曲率サンプリングによる計算ハードルを克服する。
CLAPは従来のSOTA事前学習法と比較して最大100%性能向上を達成した。
論文 参考訳(メタデータ) (2024-12-04T06:26:12Z) - Pic@Point: Cross-Modal Learning by Local and Global Point-Picture Correspondence [0.0]
構造的2D-3D対応に基づく効果的なコントラスト学習手法であるPic@Pointを提案する。
我々は,意味的および文脈的知識に富んだイメージキューを活用して,ポイントクラウド表現のガイド信号を提供する。
論文 参考訳(メタデータ) (2024-10-12T12:43:41Z) - Towards Compact 3D Representations via Point Feature Enhancement Masked
Autoencoders [52.66195794216989]
本稿では,コンパクトな3D表現を学習するために,ポイント特徴強調マスク付きオートエンコーダ(Point-FEMAE)を提案する。
Point-FEMAEはグローバルブランチとローカルブランチで構成され、潜在意味的特徴をキャプチャする。
本手法は, クロスモーダル方式と比較して, 事前学習効率を著しく向上させる。
論文 参考訳(メタデータ) (2023-12-17T14:17:05Z) - Transferring CLIP's Knowledge into Zero-Shot Point Cloud Semantic
Segmentation [17.914290294935427]
従来の3Dセグメンテーション手法では、トレーニングセットに現れる一定の範囲のクラスしか認識できない。
CLIPのような大規模ビジュアル言語事前訓練モデルでは、ゼロショット2Dビジョンタスクにおいて、その一般化能力を示している。
本稿では,CLIPが入力する視覚言語知識をクラウドエンコーダに転送するための,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2023-12-12T12:35:59Z) - 2D Feature Distillation for Weakly- and Semi-Supervised 3D Semantic
Segmentation [92.17700318483745]
合成訓練された2Dセマンティックセマンティックセグメンテーションネットワークから高レベル特徴情報を蒸留するアイデアに基づく画像誘導ネットワーク(IGNet)を提案する。
IGNetは、ScribbleKITTI上の弱い教師付きLiDARセマンティックセマンティックセグメンテーションの最先端の結果を達成し、8%のラベル付きポイントしか持たない完全な教師付きトレーニングに対して最大98%のパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2023-11-27T07:57:29Z) - CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP [55.864132158596206]
Contrastive Language-Image Pre-Training (CLIP) は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。
私たちは,CLIP知識が3Dシーン理解にどう役立つか,最初の試みを行う。
筆者らは,CLIPの知識を2次元画像テキスト事前学習モデルから3次元ポイント・クラウド・ネットワークに転送するフレームワークであるCLIP2Sceneを提案する。
論文 参考訳(メタデータ) (2023-01-12T10:42:39Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。