論文の概要: Part Aware Contrastive Learning for Self-Supervised Action Recognition
- arxiv url: http://arxiv.org/abs/2305.00666v2
- Date: Thu, 11 May 2023 07:26:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 17:33:26.138970
- Title: Part Aware Contrastive Learning for Self-Supervised Action Recognition
- Title(参考訳): 自己監督型行動認識のためのコントラスト学習
- Authors: Yilei Hua, Wenhan Wu, Ce Zheng, Aidong Lu, Mengyuan Liu, Chen Chen,
Shiqian Wu
- Abstract要約: 本稿では,骨格表現学習のための注意に基づくコントラスト学習フレームワークであるSkeAttnCLRを提案する。
提案するSkeAttnCLRはNTURGB+D, NTU120-RGB+D, PKU-MMDデータセットの最先端手法より優れている。
- 参考スコア(独自算出の注目度): 18.423841093299135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, remarkable results have been achieved in self-supervised
action recognition using skeleton sequences with contrastive learning. It has
been observed that the semantic distinction of human action features is often
represented by local body parts, such as legs or hands, which are advantageous
for skeleton-based action recognition. This paper proposes an attention-based
contrastive learning framework for skeleton representation learning, called
SkeAttnCLR, which integrates local similarity and global features for
skeleton-based action representations. To achieve this, a multi-head attention
mask module is employed to learn the soft attention mask features from the
skeletons, suppressing non-salient local features while accentuating local
salient features, thereby bringing similar local features closer in the feature
space. Additionally, ample contrastive pairs are generated by expanding
contrastive pairs based on salient and non-salient features with global
features, which guide the network to learn the semantic representations of the
entire skeleton. Therefore, with the attention mask mechanism, SkeAttnCLR
learns local features under different data augmentation views. The experiment
results demonstrate that the inclusion of local feature similarity
significantly enhances skeleton-based action representation. Our proposed
SkeAttnCLR outperforms state-of-the-art methods on NTURGB+D, NTU120-RGB+D, and
PKU-MMD datasets.
- Abstract(参考訳): 近年,スケルトンシーケンスと対比学習を用いた自己教師付き行動認識において顕著な結果が得られている。
人間の行動特徴のセマンティックな区別は、足や手などの局所的な身体部位によって表されることが多く、骨格に基づく行動認識に有利である。
本稿では,骨格表現の局所的類似性とグローバルな特徴を統合した,骨格表現学習のための注意型コントラスト学習フレームワークであるSkeAttnCLRを提案する。
これを実現するために、スケルトンからソフトアテンションマスクの特徴を学習するためにマルチヘッドアテンションマスクモジュールを使用し、局所的な塩分特徴をアクセントしながら非塩分局所特徴を抑え、特徴空間に類似した局所特徴を近づける。
さらに、グローバルな特徴を持つ正当性と非正則性に基づくコントラストペアを拡張して、スケルトン全体の意味表現をネットワークに教えることによって、多くのコントラストペアが生成される。
したがって、アテンションマスク機構により、SkeAttnCLRは異なるデータ拡張ビューの下でローカル機能を学ぶ。
実験の結果,局所的特徴類似性がスケルトンに基づく行動表現を著しく高めることが示された。
提案するSkeAttnCLRはNTURGB+D, NTU120-RGB+D, PKU-MMDデータセットの最先端手法より優れている。
関連論文リスト
- Part-aware Unified Representation of Language and Skeleton for Zero-shot Action Recognition [57.97930719585095]
本稿では,PURLS(Part-aware Unified Representation between Language and Skeleton)を紹介する。
本手法はスケルトン/言語のバックボーンと3つの大規模データセットを用いて評価する。
その結果、PURLSの普遍性と優れた性能を示し、以前のスケルトンベースのソリューションと他のドメインからの標準ベースラインを上回った。
論文 参考訳(メタデータ) (2024-06-19T08:22:32Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Self-supervised Action Representation Learning from Partial
Spatio-Temporal Skeleton Sequences [29.376328807860993]
本研究では,異なる骨格関節とビデオフレームの局所的関係を利用した部分的時空間学習(PSTL)フレームワークを提案する。
提案手法は, NTURGB+D 60, NTURGBMM+D 120, PKU-Dのダウンストリームタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-17T17:35:05Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - Kinship Verification Based on Cross-Generation Feature Interaction
Learning [53.62256887837659]
顔画像からの血縁検証は、コンピュータビジョンの応用において、新しいが挑戦的な技術として認識されている。
本稿では,頑健な親族関係検証のためのクロスジェネレーション・インタラクション・ラーニング(CFIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-07T01:50:50Z) - UNIK: A Unified Framework for Real-world Skeleton-based Action
Recognition [11.81043814295441]
UNIKは、データセットをまたいで一般化できる新しい骨格に基づく行動認識手法である。
実世界のビデオにおける行動認識のクロスドメイン一般化可能性について検討するため,提案したUNIKと同様に最先端のアプローチを再評価する。
その結果,提案したUNIKは,Poseticsを事前学習した上で,4つのターゲットアクション分類データセットに転送した場合に,最先端の処理性能を向上することがわかった。
論文 参考訳(メタデータ) (2021-07-19T02:00:28Z) - HAN: An Efficient Hierarchical Self-Attention Network for Skeleton-Based
Gesture Recognition [73.64451471862613]
骨格に基づくジェスチャー認識のための効率的な階層型自己認識ネットワーク(HAN)を提案する。
ジョイント・セルフアテンション・モジュールは指の空間的特徴を捉え、指の自己アテンション・モジュールは手全体の特徴を集約するように設計されている。
実験の結果,3つのジェスチャ認識データセットに対して,計算複雑性がはるかに低い競合的な結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-06-25T02:15:53Z) - A Self-Supervised Gait Encoding Approach with Locality-Awareness for 3D
Skeleton Based Person Re-Identification [65.18004601366066]
3Dスケルトン配列内の歩行特徴による人物再識別(Re-ID)は、いくつかの利点を持つ新しい話題である。
本稿では、ラベルのない骨格データを利用して人物の歩行表現を学習できる自己教師付き歩行符号化手法を提案する。
論文 参考訳(メタデータ) (2020-09-05T16:06:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。