論文の概要: Self-supervised Action Representation Learning from Partial
Spatio-Temporal Skeleton Sequences
- arxiv url: http://arxiv.org/abs/2302.09018v1
- Date: Fri, 17 Feb 2023 17:35:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 13:58:13.633882
- Title: Self-supervised Action Representation Learning from Partial
Spatio-Temporal Skeleton Sequences
- Title(参考訳): 部分時空間骨格列からの自己指導型行動表現学習
- Authors: Yujie Zhou, Haodong Duan, Anyi Rao, Bing Su, Jiaqi Wang
- Abstract要約: 本研究では,異なる骨格関節とビデオフレームの局所的関係を利用した部分的時空間学習(PSTL)フレームワークを提案する。
提案手法は, NTURGB+D 60, NTURGBMM+D 120, PKU-Dのダウンストリームタスクにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 29.376328807860993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning has demonstrated remarkable capability in
representation learning for skeleton-based action recognition. Existing methods
mainly focus on applying global data augmentation to generate different views
of the skeleton sequence for contrastive learning. However, due to the rich
action clues in the skeleton sequences, existing methods may only take a global
perspective to learn to discriminate different skeletons without thoroughly
leveraging the local relationship between different skeleton joints and video
frames, which is essential for real-world applications. In this work, we
propose a Partial Spatio-Temporal Learning (PSTL) framework to exploit the
local relationship from a partial skeleton sequences built by a unique
spatio-temporal masking strategy. Specifically, we construct a
negative-sample-free triplet steam structure that is composed of an anchor
stream without any masking, a spatial masking stream with Central Spatial
Masking (CSM), and a temporal masking stream with Motion Attention Temporal
Masking (MATM). The feature cross-correlation matrix is measured between the
anchor stream and the other two masking streams, respectively. (1) Central
Spatial Masking discards selected joints from the feature calculation process,
where the joints with a higher degree of centrality have a higher possibility
of being selected. (2) Motion Attention Temporal Masking leverages the motion
of action and remove frames that move faster with a higher possibility. Our
method achieves state-of-the-art performance on NTURGB+D 60, NTURGB+D 120 and
PKU-MMD under various downstream tasks. Furthermore, a practical evaluation is
performed where some skeleton joints are lost in downstream tasks.In contrast
to previous methods that suffer from large performance drops, our PSTL can
still achieve remarkable results under this challenging setting, validating the
robustness of our method.
- Abstract(参考訳): 自己教師付き学習は骨格に基づく行動認識のための表現学習において顕著な能力を示した。
既存の手法は主に、対照的な学習のための骨格配列の異なるビューを生成するために、グローバルデータ拡張を適用することに焦点を当てている。
しかし、骨格配列の豊富な行動手がかりのため、既存の方法は、異なる骨格関節とビデオフレームの間の局所的関係を徹底的に活用することなく、異なる骨格を識別することを学ぶために、グローバルな視点でしか学ばない。
本研究では,一意な時空間マスキング戦略によって構築された部分的骨格配列から局所的関係を利用する部分的時空間学習(PSTL)フレームワークを提案する。
具体的には、マスキングのないアンカーストリームと、中央空間マスキング(csm)を備えた空間マスキングストリームと、運動注意テンポラリマスキング(matm)を備えたテンポラリマスキングストリームとからなる、負のサンプルフリー三重項蒸気構造を構築する。
特徴相関行列は、アンカーストリームと他の2つのマスキングストリームとの間にそれぞれ測定される。
1) 中央空間マスキングは, 高い中心性を有する関節が選択される可能性が高い特徴計算工程から, 選択された関節を捨てる。
2)運動注意テンポラリマスキングは動作の運動を活用し,より高速に動くフレームを高い可能性で除去する。
本手法は, NTURGB+D 60, NTURGB+D 120, PKU-MMDのダウンストリームタスクにおける最先端性能を実現する。
さらに, 下流作業でスケルトン継手が失われる場合の実用的評価を行い, 性能低下に苦しむ従来の手法とは対照的に, 提案手法のロバスト性を検証するため, この課題条件下でもpstlは優れた結果を得ることができた。
関連論文リスト
- Spatial Hierarchy and Temporal Attention Guided Cross Masking for Self-supervised Skeleton-based Action Recognition [4.036669828958854]
本研究では,空間的,時間的両面からスケルトン配列にマスキングを適用した階層構造と注意誘導型クロスマスキングフレームワーク(HA-CM)を提案する。
空間グラフでは、双曲空間を用いて関節の区別を維持し、高次元骨格の階層構造を効果的に維持する。
本研究では,高次元空間における距離の収束と大域的視点の欠如に対処するため,従来の距離指標をマスキングのための大域的注意に置き換える。
論文 参考訳(メタデータ) (2024-09-26T15:28:25Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Exploring Self-Supervised Skeleton-Based Human Action Recognition under Occlusions [40.322770236718775]
本稿では,自律型ロボットシステムに自己教師付き骨格に基づく行動認識手法を統合する手法を提案する。
まず、隠蔽されたスケルトン配列を用いて事前トレーニングを行い、次にk平均クラスタリング(KMeans)を用いてシーケンス埋め込みを行い、意味的に類似したサンプルをグループ化する。
比較的完全な配列を生成するために不完全な骨格配列を挿入することは、既存の骨格に基づく自己管理法に重要な利益をもたらす。
論文 参考訳(メタデータ) (2023-09-21T12:51:11Z) - One-Shot Action Recognition via Multi-Scale Spatial-Temporal Skeleton
Matching [77.6989219290789]
ワンショットスケルトン行動認識は、単一のトレーニングサンプルでスケルトン行動認識モデルを学ぶことを目的としている。
本稿では,マルチスケールな時空間特徴マッチングによる骨格行動認識を行う新しい一発骨格行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-07-14T11:52:10Z) - SkeletonMAE: Spatial-Temporal Masked Autoencoders for Self-supervised
Skeleton Action Recognition [13.283178393519234]
自己監督型骨格に基づく行動認識が注目されている。
ラベルのないデータを利用することで、オーバーフィッティング問題を緩和するためにより一般化可能な特徴を学ぶことができる。
自己教師型3次元骨格に基づく行動認識のための空間時間マスク付きオートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-01T20:54:27Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - SimMC: Simple Masked Contrastive Learning of Skeleton Representations
for Unsupervised Person Re-Identification [63.903237777588316]
SimMC(Simple Masked Contrastive Learning)フレームワークを提案する。
具体的には、各骨格配列内の骨格の特徴を完全に活用するために、まずマスク付きプロトタイプコントラスト学習(MPC)方式を考案する。
そこで我々は,サブシーケンス間のシーケンス内パターンの整合性を捉えるために,マスク付きシーケンス内コントラスト学習(MIC)を提案する。
論文 参考訳(メタデータ) (2022-04-21T00:19:38Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - Sequential convolutional network for behavioral pattern extraction in
gait recognition [0.7874708385247353]
個人の歩行パターンを学習するための逐次畳み込みネットワーク(SCN)を提案する。
SCNでは、時系列の中間特徴写像を理解するために行動情報抽出器(BIE)を構築している。
SCNのマルチフレームアグリゲータは、モバイル3D畳み込み層を介して、長さが不確定なシーケンス上の機能統合を実行する。
論文 参考訳(メタデータ) (2021-04-23T08:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。