論文の概要: Spatial-Temporal Decoupling Contrastive Learning for Skeleton-based
Human Action Recognition
- arxiv url: http://arxiv.org/abs/2312.15144v2
- Date: Tue, 9 Jan 2024 08:59:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 19:12:14.728913
- Title: Spatial-Temporal Decoupling Contrastive Learning for Skeleton-based
Human Action Recognition
- Title(参考訳): 骨格に基づく人間行動認識のための空間時間デカップリングコントラスト学習
- Authors: Shaojie Zhang, Jianqin Yin, and Yonghao Dang
- Abstract要約: STD-CLは、配列から識別的および意味的に異なる表現を得るためのフレームワークである。
STD-CLは、NTU60、NTU120、NW-UCLAベンチマークでしっかりと改善されている。
- 参考スコア(独自算出の注目度): 10.403751563214113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skeleton-based action recognition is a central task of human-computer
interaction. However, most of the previous methods suffer from two issues: (i)
semantic ambiguity arising from spatiotemporal information mixture; and (ii)
overlooking the explicit exploitation of the latent data distributions (i.e.,
the intra-class variations and inter-class relations), thereby leading to local
optimum solutions of the skeleton encoders. To mitigate this, we propose a
spatial-temporal decoupling contrastive learning (STD-CL) framework to obtain
discriminative and semantically distinct representations from the sequences,
which can be incorporated into almost all previous skeleton encoders and have
no impact on the skeleton encoders when testing. Specifically, we decouple the
global features into spatial-specific and temporal-specific features to reduce
the spatiotemporal coupling of features. Furthermore, to explicitly exploit the
latent data distributions, we employ the attentive features to contrastive
learning, which models the cross-sequence semantic relations by pulling
together the features from the positive pairs and pushing away the negative
pairs. Extensive experiments show that STD-CL with four various skeleton
encoders (HCN, 2S-AGCN, CTR-GCN, and Hyperformer) achieves solid improvement on
NTU60, NTU120, and NW-UCLA benchmarks. The code will be released.
- Abstract(参考訳): 骨格に基づく行動認識は人間とコンピュータの相互作用の中心的なタスクである。
しかし、以前の方法の多くは2つの問題に苦しんでいる。
(i)時空間情報混合物から生じる意味曖昧性
(ii)潜在データ分布の明示的な活用(すなわち、クラス内変動とクラス間関係)を見渡すことにより、スケルトンエンコーダの局所的最適解が導かれる。
そこで本研究では,従来のほぼすべてのスケルトンエンコーダに組み込むことができ,テスト時にスケルトンエンコーダに影響を与えない,識別的かつ意味的に異なる表現をシーケンスから得るための時空間デカップリングコントラスト学習(STD-CL)フレームワークを提案する。
具体的には,グローバルな特徴を空間的特徴と時間的特徴に分離し,特徴の時空間結合を低減する。
さらに, 潜在データ分布を明示的に活用するために, 横断意味関係をモデル化し, 特徴を正のペアから抽出し, 負のペアを押し下げる, コントラスト学習に注意的特徴を用いる。
4つのスケルトンエンコーダ(HCN, 2S-AGCN, CTR-GCN, Hyperformer)を持つSTD-CLは, NTU60, NTU120, NW-UCLAのベンチマークでしっかりとした改善が得られた。
コードはリリースされます。
関連論文リスト
- Neuron: Learning Context-Aware Evolving Representations for Zero-Shot Skeleton Action Recognition [64.56321246196859]
本稿では,dUalスケルトン・セマンティック・セマンティック・セマンティック・セマンティック・シンジスティック・フレームワークを提案する。
まず、時空間進化型マイクロプロトタイプを構築し、動的コンテキスト認識側情報を統合する。
本研究では,空間的圧縮と時間的記憶機構を導入し,空間的時間的マイクロプロトタイプの成長を導く。
論文 参考訳(メタデータ) (2024-11-18T05:16:11Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - FOCAL: Contrastive Learning for Multimodal Time-Series Sensing Signals
in Factorized Orthogonal Latent Space [7.324708513042455]
本稿では,マルチモーダル時系列センシング信号から包括的特徴を抽出する,FOCALと呼ばれる新しいコントラスト学習フレームワークを提案する。
ダウンストリームタスクにおける最先端のベースラインを、明確なマージンで一貫して上回る。
論文 参考訳(メタデータ) (2023-10-30T22:55:29Z) - Exploiting Spatial-temporal Data for Sleep Stage Classification via
Hypergraph Learning [16.802013781690402]
睡眠段階分類のための時空間データをエンコードするハイパーグラフを導入した動的学習フレームワークSTHLを提案する。
提案したSTHLは睡眠段階分類タスクにおける最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2023-09-05T11:01:30Z) - Linking data separation, visual separation, and classifier performance
using pseudo-labeling by contrastive learning [125.99533416395765]
最終分類器の性能は、潜在空間に存在するデータ分離と、射影に存在する視覚的分離に依存すると論じる。
本研究は,ヒト腸管寄生虫の5つの現実的課題の画像データセットを1%の教師付きサンプルで分類し,その結果を実証する。
論文 参考訳(メタデータ) (2023-02-06T10:01:38Z) - Spatiotemporal Decouple-and-Squeeze Contrastive Learning for
Semi-Supervised Skeleton-based Action Recognition [12.601122522537459]
骨格に基づく行動のより豊富な表現を学習するための新しいSDS-CL(Stemporal Deouple Contrastive Learning)フレームワークを提案する。
我々は,新しいテンポラル・スクイージング・ロス(STL),新しいテンポラル・スクイージング・ロス(TSL),およびグローバル・コントラスト・ロス(GL)を,フレームレベルでの空間的スクイージング関節と運動の特徴,関節レベルでの時間的スクイージング関節と運動の特徴,および骨格レベルでのグローバルな関節と運動特徴とを対比するために提示する。
論文 参考訳(メタデータ) (2023-02-05T06:52:25Z) - Leveraging Spatio-Temporal Dependency for Skeleton-Based Action
Recognition [9.999149887494646]
骨格をベースとした行動認識は、人体の骨格縫合のコンパクトな表現により、かなりの注目を集めている。
グラフ畳み込みニューラルネットワーク(GCN)と畳み込みニューラルネットワーク(CNN)を用いた最近の多くの手法が目覚ましい性能を実現している。
論文 参考訳(メタデータ) (2022-12-09T10:37:22Z) - Learning Appearance-motion Normality for Video Anomaly Detection [11.658792932975652]
時空間記憶を付加した2ストリーム自動エンコーダフレームワークを提案する。
見た目の正常さと動きの正常さを独立に学習し、敵の学習を通して相関関係を探索する。
我々のフレームワークは最先端の手法より優れており、UCSD Ped2とCUHK Avenueのデータセットで98.1%、89.8%のAUCを実現している。
論文 参考訳(メタデータ) (2022-07-27T08:30:19Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - A Self-Supervised Gait Encoding Approach with Locality-Awareness for 3D
Skeleton Based Person Re-Identification [65.18004601366066]
3Dスケルトン配列内の歩行特徴による人物再識別(Re-ID)は、いくつかの利点を持つ新しい話題である。
本稿では、ラベルのない骨格データを利用して人物の歩行表現を学習できる自己教師付き歩行符号化手法を提案する。
論文 参考訳(メタデータ) (2020-09-05T16:06:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。