論文の概要: MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point
Cloud Action Recognition
- arxiv url: http://arxiv.org/abs/2209.00407v1
- Date: Thu, 1 Sep 2022 12:32:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:55:38.937434
- Title: MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point
Cloud Action Recognition
- Title(参考訳): MAPLE: 半教師付きポイントクラウド行動認識のための擬似擬似ラベル自動エンコーダ
- Authors: Xiaodong Chen and Wu Liu and Xinchen Liu and Yongdong Zhang and
Jungong Han and Tao Mei
- Abstract要約: 本稿では,Pseudo-Labeling autoEncoder (textbfMAPLE) フレームワークを提案する。
特に、MAPLEのバックボーンとして、新規で効率的なtextbfDecoupled textbfspatial-textbftemporal TranstextbfFormer(textbfDestFormer)を設計する。
MAPLEは3つの公開ベンチマークにおいて優れた結果を得て、MSR-Action3の精度を8.08%向上させる。
- 参考スコア(独自算出の注目度): 160.49403075559158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing human actions from point cloud videos has attracted tremendous
attention from both academia and industry due to its wide applications like
automatic driving, robotics, and so on. However, current methods for point
cloud action recognition usually require a huge amount of data with manual
annotations and a complex backbone network with high computation costs, which
makes it impractical for real-world applications. Therefore, this paper
considers the task of semi-supervised point cloud action recognition. We
propose a Masked Pseudo-Labeling autoEncoder (\textbf{MAPLE}) framework to
learn effective representations with much fewer annotations for point cloud
action recognition. In particular, we design a novel and efficient
\textbf{De}coupled \textbf{s}patial-\textbf{t}emporal Trans\textbf{Former}
(\textbf{DestFormer}) as the backbone of MAPLE. In DestFormer, the spatial and
temporal dimensions of the 4D point cloud videos are decoupled to achieve
efficient self-attention for learning both long-term and short-term features.
Moreover, to learn discriminative features from fewer annotations, we design a
masked pseudo-labeling autoencoder structure to guide the DestFormer to
reconstruct features of masked frames from the available frames. More
importantly, for unlabeled data, we exploit the pseudo-labels from the
classification head as the supervision signal for the reconstruction of
features from the masked frames. Finally, comprehensive experiments demonstrate
that MAPLE achieves superior results on three public benchmarks and outperforms
the state-of-the-art method by 8.08\% accuracy on the MSR-Action3D dataset.
- Abstract(参考訳): point cloudのビデオから人間の行動を認識することは、自動運転やロボティクスなどの幅広い応用により、学界や業界から大きな注目を集めている。
しかし、現在のポイントクラウドアクション認識の方法は、手作業によるアノテーションと計算コストの高い複雑なバックボーンネットワークを持つ膨大なデータを必要とするため、現実のアプリケーションでは実用的ではない。
そこで本稿では,半教師付き点雲認識の課題について考察する。
本稿では, ポイントクラウドのアクション認識のためのアノテーションをはるかに少なくして効率的な表現を学習するための, Masked Pseudo-Labeling autoEncoder (\textbf{MAPLE}) フレームワークを提案する。
特に、maple のバックボーンとして、新しい効率的な \textbf{de}coupled \textbf{s}patial-\textbf{t}emporal trans\textbf{former} (\textbf{destformer}) を設計する。
destformerでは、4d point cloudビデオの空間的および時間的次元を分離し、長期的および短期的特徴を学習するための効率的な自己照準を達成する。
さらに,より少ないアノテーションから識別的特徴を学習するために,マスク付き擬似ラベル自動エンコーダ構造を設計し,マスク付きフレームの特徴を利用可能なフレームから再構築する。
さらに,ラベルなしデータについては,分類ヘッドからの擬似ラベルを,マスク付きフレームから特徴を再構築するための監督信号として利用する。
最後に、MSR-Action3Dデータセットにおいて、MAPLEが3つの公開ベンチマークで優れた結果を示し、最先端の手法を8.08倍の精度で上回ることを示す。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Cross-Modal Information-Guided Network using Contrastive Learning for
Point Cloud Registration [17.420425069785946]
本稿では,ポイントクラウド登録のための新しいCross-Modal Information-Guided Network(CMIGNet)を提案する。
まず,点雲から投影された画像を取り込んで,アテンション機構を用いてモーダルな特徴を融合する。
コントラスト学習戦略は2つあり、すなわち、コントラスト学習とクロスモーダルコントラスト学習が重なり合う。
論文 参考訳(メタデータ) (2023-11-02T12:56:47Z) - Regress Before Construct: Regress Autoencoder for Point Cloud
Self-supervised Learning [18.10704604275133]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
我々は、ポイントクラウド自己教師型学習のための回帰オートエンコーダの新しいスキーム、Point Regress AutoEncoder (Point-RAE)を提案する。
本手法は, 各種下流タスクの事前学習において効率よく, 一般化可能である。
論文 参考訳(メタデータ) (2023-09-25T17:23:33Z) - MAELi: Masked Autoencoder for Large-Scale LiDAR Point Clouds [13.426810473131642]
Masked AutoEncoder for LiDAR Point clouds (MAELi) は、復元中にエンコーダとデコーダの両方でLiDARポイントクラウドの空間性を直感的に活用する。
新たな再構築アプローチでは、MAELiは空空間と隠された空間を区別する。
これにより、MAELiは基礎となる3次元シーンの幾何学と意味論の理解を得る。
論文 参考訳(メタデータ) (2022-12-14T13:10:27Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z) - LESS: Label-Efficient Semantic Segmentation for LiDAR Point Clouds [62.49198183539889]
我々は,LiDAR点雲を用いた屋外シーンのためのラベル効率のよいセマンティックセマンティックセマンティクスパイプラインを提案する。
本手法は,半弱教師付き学習を用いて,効率的なラベリング手法を設計する。
提案手法は,100%ラベル付き完全教師付き手法と比較して,さらに競争力が高い。
論文 参考訳(メタデータ) (2022-10-14T19:13:36Z) - Image Understands Point Cloud: Weakly Supervised 3D Semantic
Segmentation via Association Learning [59.64695628433855]
ラベルのない画像から補完的な情報を取り入れた3次元セグメンテーションのための新しいクロスモダリティ弱教師付き手法を提案する。
基本的に、ラベルの小さな部分のパワーを最大化するために、アクティブなラベリング戦略を備えたデュアルブランチネットワークを設計する。
提案手法は,1%未満のアクティブなアノテーションで,最先端の完全教師付き競合よりも優れていた。
論文 参考訳(メタデータ) (2022-09-16T07:59:04Z) - Self-Supervised Point Cloud Representation Learning with Occlusion
Auto-Encoder [63.77257588569852]
本稿では,3D Occlusion Auto-Encoder(3D-OAE)を提案する。
私たちのキーとなるアイデアは、入力ポイントクラウドのローカルパッチをランダムに排除し、隠されたパッチを復元することで監督を確立することです。
従来の手法とは対照的に、我々の3D-OAEは大量のパッチを除去し、少数の可視パッチでしか予測できない。
論文 参考訳(メタデータ) (2022-03-26T14:06:29Z) - Upsampling Autoencoder for Self-Supervised Point Cloud Learning [11.19408173558718]
人間のアノテーションを使わずに、ポイントクラウド学習のための自己教師付き事前学習モデルを提案する。
アップサンプリング操作は、ポイントクラウドの高レベルセマンティック情報と低レベル幾何情報の両方を捕捉することをネットワークに促す。
我々のUAEは、形状分類、部分分割、点雲アップサンプリングタスクにおいて、従来の最先端手法よりも優れています。
論文 参考訳(メタデータ) (2022-03-21T07:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。