論文の概要: SkeletonMAE: Graph-based Masked Autoencoder for Skeleton Sequence
Pre-training
- arxiv url: http://arxiv.org/abs/2307.08476v1
- Date: Mon, 17 Jul 2023 13:33:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 13:16:59.819140
- Title: SkeletonMAE: Graph-based Masked Autoencoder for Skeleton Sequence
Pre-training
- Title(参考訳): SkeletonMAE:スケルトン系列事前学習のためのグラフベースマスクオートエンコーダ
- Authors: Hong Yan, Yang Liu, Yushen Wei, Zhen Li, Guanbin Li, Liang Lin
- Abstract要約: 我々はSkeleton Sequence Learning(SSL)という,効率的なスケルトンシーケンス学習フレームワークを提案する。
本論文では,SkeletonMAEという非対称なグラフベースのエンコーダデコーダ事前学習アーキテクチャを構築する。
我々のSSLは、さまざまなデータセットにまたがってうまく一般化し、最先端の自己教師型スケルトンベースのアクション認識手法よりも優れています。
- 参考スコア(独自算出の注目度): 110.55093254677638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skeleton sequence representation learning has shown great advantages for
action recognition due to its promising ability to model human joints and
topology. However, the current methods usually require sufficient labeled data
for training computationally expensive models, which is labor-intensive and
time-consuming. Moreover, these methods ignore how to utilize the fine-grained
dependencies among different skeleton joints to pre-train an efficient skeleton
sequence learning model that can generalize well across different datasets. In
this paper, we propose an efficient skeleton sequence learning framework, named
Skeleton Sequence Learning (SSL). To comprehensively capture the human pose and
obtain discriminative skeleton sequence representation, we build an asymmetric
graph-based encoder-decoder pre-training architecture named SkeletonMAE, which
embeds skeleton joint sequence into Graph Convolutional Network (GCN) and
reconstructs the masked skeleton joints and edges based on the prior human
topology knowledge. Then, the pre-trained SkeletonMAE encoder is integrated
with the Spatial-Temporal Representation Learning (STRL) module to build the
SSL framework. Extensive experimental results show that our SSL generalizes
well across different datasets and outperforms the state-of-the-art
self-supervised skeleton-based action recognition methods on FineGym, Diving48,
NTU 60 and NTU 120 datasets. Additionally, we obtain comparable performance to
some fully supervised methods. The code is avaliable at
https://github.com/HongYan1123/SkeletonMAE.
- Abstract(参考訳): スケルトン配列表現学習は、人間の関節やトポロジーをモデル化する有望な能力のため、行動認識に大きな利点がある。
しかし、現在の手法は通常、計算コストの高いモデルを訓練するのに十分なラベル付きデータを必要とする。
さらに、これらの手法は、異なるデータセット間でうまく一般化できる効率的な骨格配列学習モデルを事前訓練するために、異なる骨格関節間のきめ細かい依存関係を利用する方法を無視している。
本稿では,Skeleton Sequence Learning (SSL) という,効率的なスケルトンシーケンス学習フレームワークを提案する。
人間のポーズを包括的に捉え、識別的な骨格配列表現を得るため、スケルトンメイと呼ばれる非対称グラフベースのエンコーダ・デコーダプリトレーニングアーキテクチャを構築し、グラフ畳み込みネットワーク(gcn)にスケルトン結合配列を埋め込み、以前の人間のトポロジ知識に基づいてマスク付き骨格関節とエッジを再構築する。
次に、事前訓練されたSkeletonMAEエンコーダをSpatial-Temporal Representation Learning (STRL)モジュールに統合してSSLフレームワークを構築する。
大規模な実験結果から,SSLはさまざまなデータセットにまたがって一般化され,FinGym, Diving48, NTU 60, NTU 120データセット上での最先端の自己教師型スケルトンに基づく行動認識手法よりも優れていた。
さらに,完全な教師付き手法と同等の性能が得られる。
コードはhttps://github.com/HongYan1123/SkeletonMAEで検証可能である。
関連論文リスト
- ReL-SAR: Representation Learning for Skeleton Action Recognition with Convolutional Transformers and BYOL [6.603505460200282]
非教師なし表現学習は、ラベルのない骨格データを活用する上で最も重要なものである。
ReL-SARと呼ばれる軽量な畳み込みトランスフォーマフレームワークを設計し、骨格配列の空間的および時間的キューを共同でモデル化する。
Bootstrap Your Own Latent (BYOL) を利用して、ラベルのない骨格配列データから堅牢な表現を学習する。
論文 参考訳(メタデータ) (2024-09-09T16:03:26Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Hierarchical Skeleton Meta-Prototype Contrastive Learning with Hard
Skeleton Mining for Unsupervised Person Re-Identification [70.90142717649785]
本稿では,HSM(Hard Skeleton Mining)を用いた階層型非教師付きメタプロトタイプコントラストラーニング(Hi-MPC)手法を提案する。
原原型を複数の同種変換を伴うメタプロトタイプに変換することにより,原型固有の一貫性を学習し,人体再IDのより効果的な骨格特徴を捉える。
論文 参考訳(メタデータ) (2023-07-24T16:18:22Z) - One-Shot Action Recognition via Multi-Scale Spatial-Temporal Skeleton
Matching [77.6989219290789]
ワンショットスケルトン行動認識は、単一のトレーニングサンプルでスケルトン行動認識モデルを学ぶことを目的としている。
本稿では,マルチスケールな時空間特徴マッチングによる骨格行動認識を行う新しい一発骨格行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-07-14T11:52:10Z) - SkeletonMAE: Spatial-Temporal Masked Autoencoders for Self-supervised
Skeleton Action Recognition [13.283178393519234]
自己監督型骨格に基づく行動認識が注目されている。
ラベルのないデータを利用することで、オーバーフィッティング問題を緩和するためにより一般化可能な特徴を学ぶことができる。
自己教師型3次元骨格に基づく行動認識のための空間時間マスク付きオートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-01T20:54:27Z) - SimMC: Simple Masked Contrastive Learning of Skeleton Representations
for Unsupervised Person Re-Identification [63.903237777588316]
SimMC(Simple Masked Contrastive Learning)フレームワークを提案する。
具体的には、各骨格配列内の骨格の特徴を完全に活用するために、まずマスク付きプロトタイプコントラスト学習(MPC)方式を考案する。
そこで我々は,サブシーケンス間のシーケンス内パターンの整合性を捉えるために,マスク付きシーケンス内コントラスト学習(MIC)を提案する。
論文 参考訳(メタデータ) (2022-04-21T00:19:38Z) - Multi-Scale Semantics-Guided Neural Networks for Efficient
Skeleton-Based Human Action Recognition [140.18376685167857]
スケルトンに基づく行動認識には,単純なマルチスケールセマンティクス誘導ニューラルネットワークが提案されている。
MS-SGNは、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-07T03:50:50Z) - Skeleton-Contrastive 3D Action Representation Learning [35.06361753065124]
本稿では,骨格に基づく行動認識に適した特徴空間の自己教師型学習を目指す。
提案手法は,PKUデータセットとNTUデータセットのスケルトンデータからの自己教師付き学習における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-08-08T14:44:59Z) - Predictively Encoded Graph Convolutional Network for Noise-Robust
Skeleton-based Action Recognition [6.729108277517129]
本研究では,骨格特徴の雑音情報に対して頑健な骨格に基づく行動認識手法を提案する。
本手法は, 既存の最先端手法と比較して, スケルトンサンプルがノイズを受ける場合の優れた性能を実現する。
論文 参考訳(メタデータ) (2020-03-17T03:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。