論文の概要: PointCMP: Contrastive Mask Prediction for Self-supervised Learning on
Point Cloud Videos
- arxiv url: http://arxiv.org/abs/2305.04075v1
- Date: Sat, 6 May 2023 15:47:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 17:47:58.980708
- Title: PointCMP: Contrastive Mask Prediction for Self-supervised Learning on
Point Cloud Videos
- Title(参考訳): PointCMP: ポイントクラウドビデオによる自己教師型学習のための対照的なマスク予測
- Authors: Zhiqiang Shen, Xiaoxiao Sheng, Longguang Wang, Yulan Guo, Qiong Liu,
Xi Zhou
- Abstract要約: 本稿では,ポイントクラウドビデオ上での自己教師型学習のための対照的なマスク予測フレームワークを提案する。
PointCMPは、局所的情報と大域的情報の両方を同時に学習するために、2分岐構造を用いる。
我々のフレームワークは、ベンチマークデータセットにおける最先端のパフォーマンスを達成し、既存のフル教師付きデータセットよりも優れています。
- 参考スコア(独自算出の注目度): 58.18707835387484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning can extract representations of good quality from
solely unlabeled data, which is appealing for point cloud videos due to their
high labelling cost. In this paper, we propose a contrastive mask prediction
(PointCMP) framework for self-supervised learning on point cloud videos.
Specifically, our PointCMP employs a two-branch structure to achieve
simultaneous learning of both local and global spatio-temporal information. On
top of this two-branch structure, a mutual similarity based augmentation module
is developed to synthesize hard samples at the feature level. By masking
dominant tokens and erasing principal channels, we generate hard samples to
facilitate learning representations with better discrimination and
generalization performance. Extensive experiments show that our PointCMP
achieves the state-of-the-art performance on benchmark datasets and outperforms
existing full-supervised counterparts. Transfer learning results demonstrate
the superiority of the learned representations across different datasets and
tasks.
- Abstract(参考訳): 自己教師付き学習は、ラベル付けされていないデータから品質の表現を抽出することができる。
本稿では,ポイントクラウドビデオ上での自己教師型学習のためのコントラストマスク予測(PointCMP)フレームワークを提案する。
具体的には,局所的およびグローバルな時空間情報の同時学習を実現するために,2分岐構造を用いる。
この2分岐構造の上に, 相互類似性に基づく拡張モジュールを開発し, 硬質試料を機能レベルで合成する。
支配的トークンをマスキングし、主チャネルを消去することにより、より優れた識別と一般化性能で学習表現を容易にするハードサンプルを生成する。
大規模な実験により、PointCMPはベンチマークデータセットの最先端のパフォーマンスを達成し、既存のフル教師付きデータセットよりも優れています。
転送学習の結果、異なるデータセットとタスク間で学習された表現の優越性が示される。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Point Contrastive Prediction with Semantic Clustering for
Self-Supervised Learning on Point Cloud Videos [71.20376514273367]
本稿では,オブジェクト中心およびシーン中心のデータを対象とした一元的クラウドビデオ自己教師型学習フレームワークを提案する。
本手法は、広範囲の下流タスクにおいて教師付きタスクよりも優れる。
論文 参考訳(メタデータ) (2023-08-18T02:17:47Z) - DenseDINO: Boosting Dense Self-Supervised Learning with Token-Based
Point-Level Consistency [12.881617910150688]
本稿では,DenseDINOと呼ばれる自己教師型学習のためのトランスフォーマーフレームワークを提案する。
具体的には、DenseDINOは参照トークンと呼ばれるいくつかの追加の入力トークンを導入し、ポイントレベルの特徴と以前の位置とを一致させる。
提案手法は,バニラDINOと比較して,ImageNetの分類で評価すると,競争性能が向上する。
論文 参考訳(メタデータ) (2023-06-06T15:04:45Z) - Contrastive Predictive Autoencoders for Dynamic Point Cloud
Self-Supervised Learning [26.773995001469505]
我々は、より包括的な表現を協調的に学習するために、ポイントクラウドシーケンスに基づくコントラスト予測と再構成(CPR)を設計する。
我々は4点のクラウドシークエンスベンチマークで実験を行い、その結果を複数の実験環境下で報告する。
論文 参考訳(メタデータ) (2023-05-22T12:09:51Z) - Point2Vec for Self-Supervised Representation Learning on Point Clouds [66.53955515020053]
Data2vecをポイントクラウド領域に拡張し、いくつかのダウンストリームタスクで推奨される結果を報告します。
我々は、ポイントクラウド上でData2vecライクな事前トレーニングの可能性を解放するpoint2vecを提案する。
論文 参考訳(メタデータ) (2023-03-29T10:08:29Z) - Robust Representation Learning by Clustering with Bisimulation Metrics
for Visual Reinforcement Learning with Distractions [9.088460902782547]
Bisimulation Metrics (CBM) によるクラスタリングは、潜在空間における視覚的観察をグループ化することで、堅牢な表現を学習する。
CBMは,(1)実測距離を学習プロトタイプと測定することで観測をグループ化すること,(2)現在のクラスタ割り当てに従ってプロトタイプの集合を学習すること,の2つのステップを交互に行う。
実験により、CBMは一般的なビジュアルRLアルゴリズムのサンプル効率を大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-02-12T13:27:34Z) - C2F-TCN: A Framework for Semi and Fully Supervised Temporal Action
Segmentation [20.182928938110923]
時間的アクションセグメンテーションタグは、シーケンス内の複数のアクションを含む入力未トリミングビデオの各フレームに対するアクションラベルである。
我々は,デコーダ出力の粗大なアンサンブルを特徴とする,C2F-TCNというエンコーダ-デコーダスタイルのアーキテクチャを提案する。
アーキテクチャは教師付き学習と表現学習の両方に柔軟であることを示す。
論文 参考訳(メタデータ) (2022-12-20T14:53:46Z) - MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point
Cloud Action Recognition [160.49403075559158]
本稿では,Pseudo-Labeling autoEncoder (textbfMAPLE) フレームワークを提案する。
特に、MAPLEのバックボーンとして、新規で効率的なtextbfDecoupled textbfspatial-textbftemporal TranstextbfFormer(textbfDestFormer)を設計する。
MAPLEは3つの公開ベンチマークにおいて優れた結果を得て、MSR-Action3の精度を8.08%向上させる。
論文 参考訳(メタデータ) (2022-09-01T12:32:40Z) - Unsupervised Representation Learning for 3D Point Cloud Data [66.92077180228634]
我々は、教師なしのポイントクラウド学習に対して、シンプルで効果的なアプローチを提案する。
特に、原点雲の優れたコントラストバージョンを生成する非常に有用な変換を同定する。
本研究では,3次元オブジェクト分類,形状部分分割,シーン分割の3つの下流タスクについて実験を行った。
論文 参考訳(メタデータ) (2021-10-13T10:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。