論文の概要: Contrastive Learning from Spatio-Temporal Mixed Skeleton Sequences for
Self-Supervised Skeleton-Based Action Recognition
- arxiv url: http://arxiv.org/abs/2207.03065v1
- Date: Thu, 7 Jul 2022 03:18:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 14:09:03.502683
- Title: Contrastive Learning from Spatio-Temporal Mixed Skeleton Sequences for
Self-Supervised Skeleton-Based Action Recognition
- Title(参考訳): 自己監督型骨格行動認識のための時空間混合骨格系列からのコントラスト学習
- Authors: Zhan Chen, Hong Liu, Tianyu Guo, Zhengyan Chen, Pinhao Song, Hao Tang
- Abstract要約: 通常の拡張に基づくコントラストペアを直接拡張すると、性能の面ではリターンが制限されることが示される。
我々は,現在のコントラスト学習アプローチを補完する時間的スケルトン混合強化(SkeleMix)を備えたコントラスト学習フレームワークであるSkeleMixCLRを提案する。
- 参考スコア(独自算出の注目度): 21.546894064451898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised skeleton-based action recognition with contrastive learning
has attracted much attention. Recent literature shows that data augmentation
and large sets of contrastive pairs are crucial in learning such
representations. In this paper, we found that directly extending contrastive
pairs based on normal augmentations brings limited returns in terms of
performance, because the contribution of contrastive pairs from the normal data
augmentation to the loss get smaller as training progresses. Therefore, we
delve into hard contrastive pairs for contrastive learning. Motivated by the
success of mixing augmentation strategy which improves the performance of many
tasks by synthesizing novel samples, we propose SkeleMixCLR: a contrastive
learning framework with a spatio-temporal skeleton mixing augmentation
(SkeleMix) to complement current contrastive learning approaches by providing
hard contrastive samples. First, SkeleMix utilizes the topological information
of skeleton data to mix two skeleton sequences by randomly combing the cropped
skeleton fragments (the trimmed view) with the remaining skeleton sequences
(the truncated view). Second, a spatio-temporal mask pooling is applied to
separate these two views at the feature level. Third, we extend contrastive
pairs with these two views. SkeleMixCLR leverages the trimmed and truncated
views to provide abundant hard contrastive pairs since they involve some
context information from each other due to the graph convolution operations,
which allows the model to learn better motion representations for action
recognition. Extensive experiments on NTU-RGB+D, NTU120-RGB+D, and PKU-MMD
datasets show that SkeleMixCLR achieves state-of-the-art performance. Codes are
available at https://github.com/czhaneva/SkeleMixCLR.
- Abstract(参考訳): 対照的な学習を伴う自己教師付き骨格に基づく行動認識は注目されている。
近年の文献では、このような表現を学ぶ上で、データ拡張と大きなコントラストペアセットが重要であることが示されている。
本稿では,正規データ増補から損失へのコントラストペアの寄与がトレーニングが進むにつれて小さくなるため,正規増補に基づくコントラストペアの直接拡張は性能面での回復率の限界をもたらすことを見出した。
したがって,コントラスト学習のためのハードコントラストペアを考案する。
新たなサンプルを合成することで,多くのタスクのパフォーマンス向上を図る混合強化戦略の成功に触発されたSkeleMixCLRを提案する。SkeleMixCLRは,コントラスト学習アプローチを補完する,時空間スケルトン混合強化(SkeleMix)を備えたコントラスト学習フレームワークである。
まず、骨格データのトポロジカル情報を利用して、切り刻んだ骨格断片(トリミングビュー)と残りの骨格配列(切り抜きビュー)をランダムに混合することにより、2つの骨格配列を混合する。
第2に,これらの2つのビューを特徴レベルで分離するために,時空間マスクプーリングを適用する。
第3に、これらの2つのビューでコントラストペアを拡張します。
skelemixclrは、グラフ畳み込み操作のために互いにコンテキスト情報を必要とするため、トリミングされたビューと切断されたビューを利用して、豊富なハードコントラストペアを提供する。
NTU-RGB+D、NTU120-RGB+D、PKU-MMDデータセットに関する大規模な実験は、SkeleMixCLRが最先端のパフォーマンスを達成することを示す。
コードはhttps://github.com/czhaneva/SkeleMixCLRで入手できる。
関連論文リスト
- Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - SkeleTR: Towrads Skeleton-based Action Recognition in the Wild [86.03082891242698]
SkeleTRは骨格に基づく行動認識のための新しいフレームワークである。
まず、グラフ畳み込みによる各骨格配列の人体内骨格力学をモデル化する。
次に、スタック化されたTransformerエンコーダを使用して、一般的なシナリオにおけるアクション認識に重要な人物のインタラクションをキャプチャする。
論文 参考訳(メタデータ) (2023-09-20T16:22:33Z) - SkeletonMAE: Graph-based Masked Autoencoder for Skeleton Sequence
Pre-training [110.55093254677638]
我々はSkeleton Sequence Learning(SSL)という,効率的なスケルトンシーケンス学習フレームワークを提案する。
本論文では,SkeletonMAEという非対称なグラフベースのエンコーダデコーダ事前学習アーキテクチャを構築する。
我々のSSLは、さまざまなデータセットにまたがってうまく一般化し、最先端の自己教師型スケルトンベースのアクション認識手法よりも優れています。
論文 参考訳(メタデータ) (2023-07-17T13:33:11Z) - One-Shot Action Recognition via Multi-Scale Spatial-Temporal Skeleton
Matching [77.6989219290789]
ワンショットスケルトン行動認識は、単一のトレーニングサンプルでスケルトン行動認識モデルを学ぶことを目的としている。
本稿では,マルチスケールな時空間特徴マッチングによる骨格行動認識を行う新しい一発骨格行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-07-14T11:52:10Z) - Self-supervised Action Representation Learning from Partial
Spatio-Temporal Skeleton Sequences [29.376328807860993]
本研究では,異なる骨格関節とビデオフレームの局所的関係を利用した部分的時空間学習(PSTL)フレームワークを提案する。
提案手法は, NTURGB+D 60, NTURGBMM+D 120, PKU-Dのダウンストリームタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-17T17:35:05Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - SimMC: Simple Masked Contrastive Learning of Skeleton Representations
for Unsupervised Person Re-Identification [63.903237777588316]
SimMC(Simple Masked Contrastive Learning)フレームワークを提案する。
具体的には、各骨格配列内の骨格の特徴を完全に活用するために、まずマスク付きプロトタイプコントラスト学習(MPC)方式を考案する。
そこで我々は,サブシーケンス間のシーケンス内パターンの整合性を捉えるために,マスク付きシーケンス内コントラスト学習(MIC)を提案する。
論文 参考訳(メタデータ) (2022-04-21T00:19:38Z) - Skeleton-Contrastive 3D Action Representation Learning [35.06361753065124]
本稿では,骨格に基づく行動認識に適した特徴空間の自己教師型学習を目指す。
提案手法は,PKUデータセットとNTUデータセットのスケルトンデータからの自己教師付き学習における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-08-08T14:44:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。