論文の概要: A Generically Contrastive Spatiotemporal Representation Enhancement for 3D Skeleton Action Recognition
- arxiv url: http://arxiv.org/abs/2312.15144v4
- Date: Mon, 17 Mar 2025 08:45:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:57:18.057755
- Title: A Generically Contrastive Spatiotemporal Representation Enhancement for 3D Skeleton Action Recognition
- Title(参考訳): 3次元スケルトン行動認識のための対時空間表現のジェネラルコントラスト化
- Authors: Shaojie Zhang, Jianqin Yin, Yonghao Dang,
- Abstract要約: 本稿では, 比較時空間表現拡張(CSRE)フレームワークを提案する。
具体的には、その表現を空間的特徴と時間的特徴に分解し、微細な動きパターンを探索する。
潜伏したデータ分布を明示的に活用するために、コントラスト学習に注意的特徴を用いて、クロスシーケンスセマンティックリレーションをモデル化する。
- 参考スコア(独自算出の注目度): 10.403751563214113
- License:
- Abstract: Skeleton-based action recognition is a central task in computer vision and human-robot interaction. However, most previous methods suffer from overlooking the explicit exploitation of the latent data distributions (i.e., the intra-class variations and inter-class relations), thereby leading to confusion about ambiguous samples and sub-optimum solutions of the skeleton encoders. To mitigate this, we propose a Contrastive Spatiotemporal Representation Enhancement (CSRE) framework to obtain more discriminative representations from the sequences, which can be incorporated into various previous skeleton encoders and can be removed when testing. Specifically, we decompose the representation into spatial- and temporal-specific features to explore fine-grained motion patterns along the corresponding dimensions. Furthermore, to explicitly exploit the latent data distributions, we employ the attentive features to contrastive learning, which models the cross-sequence semantic relations by pulling together the features from the positive pairs and pushing away the negative pairs. Extensive experiments show that CSRE with five various skeleton encoders (HCN, 2S-AGCN, CTR-GCN, Hyperformer, and BlockGCN) achieves solid improvements on five benchmarks. The code will be released at https://github.com/zhshj0110/CSRE.
- Abstract(参考訳): 骨格に基づく行動認識は、コンピュータビジョンと人間とロボットの相互作用において中心的な課題である。
しかし、従来のほとんどの手法は、潜伏データ分布(クラス内変異とクラス間関係)の明示的な利用を見越すことに悩まされ、その結果、不明瞭なサンプルと骨格エンコーダの準最適解が混同される。
これを軽減するために,従来のスケルトンエンコーダに組み込むことができ,テスト時に取り除くことが可能なシーケンスから,より識別的な表現を得るためのコントラスト時空間表現拡張(CSRE)フレームワークを提案する。
具体的には、その表現を空間的特徴と時間的特徴に分解し、対応する次元に沿った微細な動きパターンを探索する。
さらに、潜在データ分布を明示的に活用するために、正のペアから特徴を抽出し、負のペアを強制的に取り除くことで、系列間の意味関係をモデル化するコントラスト学習に注意的特徴を用いる。
5種類のスケルトンエンコーダ(HCN, 2S-AGCN, CTR-GCN, Hyperformer, BlockGCN)によるCSREは5つのベンチマークでしっかりと改善されている。
コードはhttps://github.com/zhshj0110/CSREで公開される。
関連論文リスト
- Neuron: Learning Context-Aware Evolving Representations for Zero-Shot Skeleton Action Recognition [64.56321246196859]
本稿では,dUalスケルトン・セマンティック・セマンティック・セマンティック・セマンティック・シンジスティック・フレームワークを提案する。
まず、時空間進化型マイクロプロトタイプを構築し、動的コンテキスト認識側情報を統合する。
本研究では,空間的圧縮と時間的記憶機構を導入し,空間的時間的マイクロプロトタイプの成長を導く。
論文 参考訳(メタデータ) (2024-11-18T05:16:11Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - FOCAL: Contrastive Learning for Multimodal Time-Series Sensing Signals
in Factorized Orthogonal Latent Space [7.324708513042455]
本稿では,マルチモーダル時系列センシング信号から包括的特徴を抽出する,FOCALと呼ばれる新しいコントラスト学習フレームワークを提案する。
ダウンストリームタスクにおける最先端のベースラインを、明確なマージンで一貫して上回る。
論文 参考訳(メタデータ) (2023-10-30T22:55:29Z) - Exploiting Spatial-temporal Data for Sleep Stage Classification via
Hypergraph Learning [16.802013781690402]
睡眠段階分類のための時空間データをエンコードするハイパーグラフを導入した動的学習フレームワークSTHLを提案する。
提案したSTHLは睡眠段階分類タスクにおける最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2023-09-05T11:01:30Z) - Linking data separation, visual separation, and classifier performance
using pseudo-labeling by contrastive learning [125.99533416395765]
最終分類器の性能は、潜在空間に存在するデータ分離と、射影に存在する視覚的分離に依存すると論じる。
本研究は,ヒト腸管寄生虫の5つの現実的課題の画像データセットを1%の教師付きサンプルで分類し,その結果を実証する。
論文 参考訳(メタデータ) (2023-02-06T10:01:38Z) - Spatiotemporal Decouple-and-Squeeze Contrastive Learning for
Semi-Supervised Skeleton-based Action Recognition [12.601122522537459]
骨格に基づく行動のより豊富な表現を学習するための新しいSDS-CL(Stemporal Deouple Contrastive Learning)フレームワークを提案する。
我々は,新しいテンポラル・スクイージング・ロス(STL),新しいテンポラル・スクイージング・ロス(TSL),およびグローバル・コントラスト・ロス(GL)を,フレームレベルでの空間的スクイージング関節と運動の特徴,関節レベルでの時間的スクイージング関節と運動の特徴,および骨格レベルでのグローバルな関節と運動特徴とを対比するために提示する。
論文 参考訳(メタデータ) (2023-02-05T06:52:25Z) - Leveraging Spatio-Temporal Dependency for Skeleton-Based Action
Recognition [9.999149887494646]
骨格をベースとした行動認識は、人体の骨格縫合のコンパクトな表現により、かなりの注目を集めている。
グラフ畳み込みニューラルネットワーク(GCN)と畳み込みニューラルネットワーク(CNN)を用いた最近の多くの手法が目覚ましい性能を実現している。
論文 参考訳(メタデータ) (2022-12-09T10:37:22Z) - Learning Appearance-motion Normality for Video Anomaly Detection [11.658792932975652]
時空間記憶を付加した2ストリーム自動エンコーダフレームワークを提案する。
見た目の正常さと動きの正常さを独立に学習し、敵の学習を通して相関関係を探索する。
我々のフレームワークは最先端の手法より優れており、UCSD Ped2とCUHK Avenueのデータセットで98.1%、89.8%のAUCを実現している。
論文 参考訳(メタデータ) (2022-07-27T08:30:19Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - A Self-Supervised Gait Encoding Approach with Locality-Awareness for 3D
Skeleton Based Person Re-Identification [65.18004601366066]
3Dスケルトン配列内の歩行特徴による人物再識別(Re-ID)は、いくつかの利点を持つ新しい話題である。
本稿では、ラベルのない骨格データを利用して人物の歩行表現を学習できる自己教師付き歩行符号化手法を提案する。
論文 参考訳(メタデータ) (2020-09-05T16:06:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。