論文の概要: MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point
Cloud Action Recognition
- arxiv url: http://arxiv.org/abs/2209.00407v1
- Date: Thu, 1 Sep 2022 12:32:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:55:38.937434
- Title: MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point
Cloud Action Recognition
- Title(参考訳): MAPLE: 半教師付きポイントクラウド行動認識のための擬似擬似ラベル自動エンコーダ
- Authors: Xiaodong Chen and Wu Liu and Xinchen Liu and Yongdong Zhang and
Jungong Han and Tao Mei
- Abstract要約: 本稿では,Pseudo-Labeling autoEncoder (textbfMAPLE) フレームワークを提案する。
特に、MAPLEのバックボーンとして、新規で効率的なtextbfDecoupled textbfspatial-textbftemporal TranstextbfFormer(textbfDestFormer)を設計する。
MAPLEは3つの公開ベンチマークにおいて優れた結果を得て、MSR-Action3の精度を8.08%向上させる。
- 参考スコア(独自算出の注目度): 160.49403075559158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing human actions from point cloud videos has attracted tremendous
attention from both academia and industry due to its wide applications like
automatic driving, robotics, and so on. However, current methods for point
cloud action recognition usually require a huge amount of data with manual
annotations and a complex backbone network with high computation costs, which
makes it impractical for real-world applications. Therefore, this paper
considers the task of semi-supervised point cloud action recognition. We
propose a Masked Pseudo-Labeling autoEncoder (\textbf{MAPLE}) framework to
learn effective representations with much fewer annotations for point cloud
action recognition. In particular, we design a novel and efficient
\textbf{De}coupled \textbf{s}patial-\textbf{t}emporal Trans\textbf{Former}
(\textbf{DestFormer}) as the backbone of MAPLE. In DestFormer, the spatial and
temporal dimensions of the 4D point cloud videos are decoupled to achieve
efficient self-attention for learning both long-term and short-term features.
Moreover, to learn discriminative features from fewer annotations, we design a
masked pseudo-labeling autoencoder structure to guide the DestFormer to
reconstruct features of masked frames from the available frames. More
importantly, for unlabeled data, we exploit the pseudo-labels from the
classification head as the supervision signal for the reconstruction of
features from the masked frames. Finally, comprehensive experiments demonstrate
that MAPLE achieves superior results on three public benchmarks and outperforms
the state-of-the-art method by 8.08\% accuracy on the MSR-Action3D dataset.
- Abstract(参考訳): point cloudのビデオから人間の行動を認識することは、自動運転やロボティクスなどの幅広い応用により、学界や業界から大きな注目を集めている。
しかし、現在のポイントクラウドアクション認識の方法は、手作業によるアノテーションと計算コストの高い複雑なバックボーンネットワークを持つ膨大なデータを必要とするため、現実のアプリケーションでは実用的ではない。
そこで本稿では,半教師付き点雲認識の課題について考察する。
本稿では, ポイントクラウドのアクション認識のためのアノテーションをはるかに少なくして効率的な表現を学習するための, Masked Pseudo-Labeling autoEncoder (\textbf{MAPLE}) フレームワークを提案する。
特に、maple のバックボーンとして、新しい効率的な \textbf{de}coupled \textbf{s}patial-\textbf{t}emporal trans\textbf{former} (\textbf{destformer}) を設計する。
destformerでは、4d point cloudビデオの空間的および時間的次元を分離し、長期的および短期的特徴を学習するための効率的な自己照準を達成する。
さらに,より少ないアノテーションから識別的特徴を学習するために,マスク付き擬似ラベル自動エンコーダ構造を設計し,マスク付きフレームの特徴を利用可能なフレームから再構築する。
さらに,ラベルなしデータについては,分類ヘッドからの擬似ラベルを,マスク付きフレームから特徴を再構築するための監督信号として利用する。
最後に、MSR-Action3Dデータセットにおいて、MAPLEが3つの公開ベンチマークで優れた結果を示し、最先端の手法を8.08倍の精度で上回ることを示す。
関連論文リスト
- MAELi -- Masked Autoencoder for Large-Scale LiDAR Point Clouds [6.155733580467717]
大規模LiDAR点雲を効果的に自己教師付き表現学習に活用する方法を示す。
本稿では,LDAR 点群とデコーダの両方の間隔を直感的に利用する Masked AutoEncoder (MAELi) を提案する。
論文 参考訳(メタデータ) (2022-12-14T13:10:27Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Outdoor Point Cloud
Pre-training [10.490984042520642]
本稿では,屋外の点雲上での3次元物体検出のためのマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には,まず3次元エンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
最後に,3Dエンコーダの一貫した受容フィールドサイズを維持するために,学習可能な点トークンを導入する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z) - LESS: Label-Efficient Semantic Segmentation for LiDAR Point Clouds [62.49198183539889]
我々は,LiDAR点雲を用いた屋外シーンのためのラベル効率のよいセマンティックセマンティックセマンティクスパイプラインを提案する。
本手法は,半弱教師付き学習を用いて,効率的なラベリング手法を設計する。
提案手法は,100%ラベル付き完全教師付き手法と比較して,さらに競争力が高い。
論文 参考訳(メタデータ) (2022-10-14T19:13:36Z) - Image Understands Point Cloud: Weakly Supervised 3D Semantic
Segmentation via Association Learning [59.64695628433855]
ラベルのない画像から補完的な情報を取り入れた3次元セグメンテーションのための新しいクロスモダリティ弱教師付き手法を提案する。
基本的に、ラベルの小さな部分のパワーを最大化するために、アクティブなラベリング戦略を備えたデュアルブランチネットワークを設計する。
提案手法は,1%未満のアクティブなアノテーションで,最先端の完全教師付き競合よりも優れていた。
論文 参考訳(メタデータ) (2022-09-16T07:59:04Z) - Self-Supervised Point Cloud Representation Learning with Occlusion
Auto-Encoder [63.77257588569852]
本稿では,3D Occlusion Auto-Encoder(3D-OAE)を提案する。
私たちのキーとなるアイデアは、入力ポイントクラウドのローカルパッチをランダムに排除し、隠されたパッチを復元することで監督を確立することです。
従来の手法とは対照的に、我々の3D-OAEは大量のパッチを除去し、少数の可視パッチでしか予測できない。
論文 参考訳(メタデータ) (2022-03-26T14:06:29Z) - Upsampling Autoencoder for Self-Supervised Point Cloud Learning [11.19408173558718]
人間のアノテーションを使わずに、ポイントクラウド学習のための自己教師付き事前学習モデルを提案する。
アップサンプリング操作は、ポイントクラウドの高レベルセマンティック情報と低レベル幾何情報の両方を捕捉することをネットワークに促す。
我々のUAEは、形状分類、部分分割、点雲アップサンプリングタスクにおいて、従来の最先端手法よりも優れています。
論文 参考訳(メタデータ) (2022-03-21T07:20:37Z) - UPDesc: Unsupervised Point Descriptor Learning for Robust Registration [54.95201961399334]
UPDescは、ロバストポイントクラウド登録のためのポイント記述子を学習するための教師なしの方法である。
学習した記述子は既存の教師なし手法よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2021-08-05T17:11:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。