論文の概要: SkeletonMAE: Spatial-Temporal Masked Autoencoders for Self-supervised
Skeleton Action Recognition
- arxiv url: http://arxiv.org/abs/2209.02399v1
- Date: Thu, 1 Sep 2022 20:54:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-11 13:10:18.030584
- Title: SkeletonMAE: Spatial-Temporal Masked Autoencoders for Self-supervised
Skeleton Action Recognition
- Title(参考訳): SkeletonMAE:自己教師型骨格行動認識のための時空間マスケ自動エンコーダ
- Authors: Wenhan Wu, Yilei Hua, Ce zheng, Shiqian Wu, Chen Chen, Aidong Lu
- Abstract要約: 自己監督型骨格に基づく行動認識が注目されている。
ラベルのないデータを利用することで、オーバーフィッティング問題を緩和するためにより一般化可能な特徴を学ぶことができる。
自己教師型3次元骨格に基づく行動認識のための空間時間マスク付きオートエンコーダフレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.283178393519234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fully supervised skeleton-based action recognition has achieved great
progress with the blooming of deep learning techniques. However, these methods
require sufficient labeled data which is not easy to obtain. In contrast,
self-supervised skeleton-based action recognition has attracted more attention.
With utilizing the unlabeled data, more generalizable features can be learned
to alleviate the overfitting problem and reduce the demand of massive labeled
training data. Inspired by the MAE, we propose a spatial-temporal masked
autoencoder framework for self-supervised 3D skeleton-based action recognition
(SkeletonMAE). Following MAE's masking and reconstruction pipeline, we utilize
a skeleton based encoder-decoder transformer architecture to reconstruct the
masked skeleton sequences. A novel masking strategy, named Spatial-Temporal
Masking, is introduced in terms of both joint-level and frame-level for the
skeleton sequence. This pre-training strategy makes the encoder output
generalizable skeleton features with spatial and temporal dependencies. Given
the unmasked skeleton sequence, the encoder is fine-tuned for the action
recognition task. Extensive experiments show that our SkeletonMAE achieves
remarkable performance and outperforms the state-of-the-art methods on both NTU
RGB+D and NTU RGB+D 120 datasets.
- Abstract(参考訳): 完全な教師付きスケルトンベースのアクション認識は、ディープラーニング技術の出現によって大きな進歩を遂げている。
しかし、これらの手法は容易には得られない十分なラベル付きデータを必要とする。
対照的に、自己監督型骨格に基づく行動認識はより注目を集めている。
ラベルなしデータを利用することで、オーバーフィッティング問題を緩和し、大量のラベル付きトレーニングデータの需要を減らすために、より一般化可能な特徴を学ぶことができる。
MAEにインスパイアされた自己教師型3次元骨格に基づく行動認識(SkeletonMAE)のための空間時間マスク付きオートエンコーダフレームワークを提案する。
MAEのマスキングおよび再構成パイプラインに続いて,スケルトンをベースとしたエンコーダ・デコーダ・トランスフォーマアーキテクチャを用いて,マスクしたスケルトン配列を再構成する。
骨格配列の結合レベルとフレームレベルの両方の観点から,空間的マスキングと呼ばれる新しいマスキング戦略を導入する。
この事前学習戦略は、エンコーダ出力を空間的および時間的依存関係を持つ一般化可能なスケルトン特徴にする。
未マスクのスケルトンシーケンスが与えられると、エンコーダはアクション認識タスクのために微調整される。
我々のSkeletonMAEは、NTU RGB+DおよびNTU RGB+D 120データセットの最先端手法よりも優れた性能を示す。
関連論文リスト
- Spatial Hierarchy and Temporal Attention Guided Cross Masking for Self-supervised Skeleton-based Action Recognition [4.036669828958854]
本研究では,空間的,時間的両面からスケルトン配列にマスキングを適用した階層構造と注意誘導型クロスマスキングフレームワーク(HA-CM)を提案する。
空間グラフでは、双曲空間を用いて関節の区別を維持し、高次元骨格の階層構造を効果的に維持する。
本研究では,高次元空間における距離の収束と大域的視点の欠如に対処するため,従来の距離指標をマスキングのための大域的注意に置き換える。
論文 参考訳(メタデータ) (2024-09-26T15:28:25Z) - ReL-SAR: Representation Learning for Skeleton Action Recognition with Convolutional Transformers and BYOL [6.603505460200282]
非教師なし表現学習は、ラベルのない骨格データを活用する上で最も重要なものである。
ReL-SARと呼ばれる軽量な畳み込みトランスフォーマフレームワークを設計し、骨格配列の空間的および時間的キューを共同でモデル化する。
Bootstrap Your Own Latent (BYOL) を利用して、ラベルのない骨格配列データから堅牢な表現を学習する。
論文 参考訳(メタデータ) (2024-09-09T16:03:26Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - SkeletonMAE: Graph-based Masked Autoencoder for Skeleton Sequence
Pre-training [110.55093254677638]
我々はSkeleton Sequence Learning(SSL)という,効率的なスケルトンシーケンス学習フレームワークを提案する。
本論文では,SkeletonMAEという非対称なグラフベースのエンコーダデコーダ事前学習アーキテクチャを構築する。
我々のSSLは、さまざまなデータセットにまたがってうまく一般化し、最先端の自己教師型スケルトンベースのアクション認識手法よりも優れています。
論文 参考訳(メタデータ) (2023-07-17T13:33:11Z) - Self-Supervised 3D Action Representation Learning with Skeleton Cloud
Colorization [75.0912240667375]
3Dスケルトンをベースとした人間の行動認識は近年注目を集めている。
既存の研究のほとんどは、多数のラベル付けされたアクションシーケンスを必要とする教師あり学習に焦点を当てている。
本稿では,骨格に基づく行動認識のための自己教師付き3次元行動表現学習について述べる。
論文 参考訳(メタデータ) (2023-04-18T08:03:26Z) - Self-supervised Action Representation Learning from Partial
Spatio-Temporal Skeleton Sequences [29.376328807860993]
本研究では,異なる骨格関節とビデオフレームの局所的関係を利用した部分的時空間学習(PSTL)フレームワークを提案する。
提案手法は, NTURGB+D 60, NTURGBMM+D 120, PKU-Dのダウンストリームタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-17T17:35:05Z) - SimMC: Simple Masked Contrastive Learning of Skeleton Representations
for Unsupervised Person Re-Identification [63.903237777588316]
SimMC(Simple Masked Contrastive Learning)フレームワークを提案する。
具体的には、各骨格配列内の骨格の特徴を完全に活用するために、まずマスク付きプロトタイプコントラスト学習(MPC)方式を考案する。
そこで我々は,サブシーケンス間のシーケンス内パターンの整合性を捉えるために,マスク付きシーケンス内コントラスト学習(MIC)を提案する。
論文 参考訳(メタデータ) (2022-04-21T00:19:38Z) - Skeleton Cloud Colorization for Unsupervised 3D Action Representation
Learning [65.88887113157627]
骨格に基づく人間の行動認識は近年注目を集めている。
我々は、ラベルのない骨格配列データから骨格表現を学習できる新しいスケルトン雲色化手法を設計する。
提案手法は,既存の教師なしおよび半教師付き3次元動作認識手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-08-04T10:55:39Z) - A Self-Supervised Gait Encoding Approach with Locality-Awareness for 3D
Skeleton Based Person Re-Identification [65.18004601366066]
3Dスケルトン配列内の歩行特徴による人物再識別(Re-ID)は、いくつかの利点を持つ新しい話題である。
本稿では、ラベルのない骨格データを利用して人物の歩行表現を学習できる自己教師付き歩行符号化手法を提案する。
論文 参考訳(メタデータ) (2020-09-05T16:06:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。