Fugu-MT 論文翻訳(概要): Spatial-Temporal Decoupling Contrastive Learning for Skeleton-based Human Action Recognition

論文の概要: Spatial-Temporal Decoupling Contrastive Learning for Skeleton-based Human Action Recognition

arxiv url: http://arxiv.org/abs/2312.15144v2
Date: Tue, 9 Jan 2024 08:59:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-10 19:12:14.728913
Title: Spatial-Temporal Decoupling Contrastive Learning for Skeleton-based Human Action Recognition
Title（参考訳）: 骨格に基づく人間行動認識のための空間時間デカップリングコントラスト学習
Authors: Shaojie Zhang, Jianqin Yin, and Yonghao Dang
Abstract要約: STD-CLは、配列から識別的および意味的に異なる表現を得るためのフレームワークである。 STD-CLは、NTU60、NTU120、NW-UCLAベンチマークでしっかりと改善されている。
参考スコア（独自算出の注目度）: 10.403751563214113
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Skeleton-based action recognition is a central task of human-computer interaction. However, most of the previous methods suffer from two issues: (i) semantic ambiguity arising from spatiotemporal information mixture; and (ii) overlooking the explicit exploitation of the latent data distributions (i.e., the intra-class variations and inter-class relations), thereby leading to local optimum solutions of the skeleton encoders. To mitigate this, we propose a spatial-temporal decoupling contrastive learning (STD-CL) framework to obtain discriminative and semantically distinct representations from the sequences, which can be incorporated into almost all previous skeleton encoders and have no impact on the skeleton encoders when testing. Specifically, we decouple the global features into spatial-specific and temporal-specific features to reduce the spatiotemporal coupling of features. Furthermore, to explicitly exploit the latent data distributions, we employ the attentive features to contrastive learning, which models the cross-sequence semantic relations by pulling together the features from the positive pairs and pushing away the negative pairs. Extensive experiments show that STD-CL with four various skeleton encoders (HCN, 2S-AGCN, CTR-GCN, and Hyperformer) achieves solid improvement on NTU60, NTU120, and NW-UCLA benchmarks. The code will be released.
Abstract（参考訳）: 骨格に基づく行動認識は人間とコンピュータの相互作用の中心的なタスクである。しかし、以前の方法の多くは2つの問題に苦しんでいる。 (i)時空間情報混合物から生じる意味曖昧性 (ii)潜在データ分布の明示的な活用(すなわち、クラス内変動とクラス間関係)を見渡すことにより、スケルトンエンコーダの局所的最適解が導かれる。そこで本研究では,従来のほぼすべてのスケルトンエンコーダに組み込むことができ,テスト時にスケルトンエンコーダに影響を与えない,識別的かつ意味的に異なる表現をシーケンスから得るための時空間デカップリングコントラスト学習(STD-CL)フレームワークを提案する。具体的には,グローバルな特徴を空間的特徴と時間的特徴に分離し,特徴の時空間結合を低減する。さらに, 潜在データ分布を明示的に活用するために, 横断意味関係をモデル化し, 特徴を正のペアから抽出し, 負のペアを押し下げる, コントラスト学習に注意的特徴を用いる。 4つのスケルトンエンコーダ(HCN, 2S-AGCN, CTR-GCN, Hyperformer)を持つSTD-CLは, NTU60, NTU120, NW-UCLAのベンチマークでしっかりとした改善が得られた。コードはリリースされます。

関連論文リスト

Multi-Modal Graph Convolutional Network with Sinusoidal Encoding for Robust Human Action Segmentation [10.122882293302787]
人間の行動の時間的セグメンテーションは知的ロボットにとって協調的な環境において不可欠です本稿では,低フレームレート(例えば1fps)の視覚データと高フレームレート(例えば30fps)のモーションデータを統合するマルチモーダルグラフ畳み込みネットワーク(MMGCN)を提案する。我々の手法は、特にアクションセグメンテーションの精度において最先端の手法よりも優れている。
論文参考訳（メタデータ） (2025-07-01T13:55:57Z)
USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation [24.90512145836643]
本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
論文参考訳（メタデータ） (2024-12-12T12:20:27Z)
Neuron: Learning Context-Aware Evolving Representations for Zero-Shot Skeleton Action Recognition [64.56321246196859]
本稿では,dUalスケルトン・セマンティック・セマンティック・セマンティック・セマンティック・シンジスティック・フレームワークを提案する。まず、時空間進化型マイクロプロトタイプを構築し、動的コンテキスト認識側情報を統合する。本研究では,空間的圧縮と時間的記憶機構を導入し,空間的時間的マイクロプロトタイプの成長を導く。
論文参考訳（メタデータ） (2024-11-18T05:16:11Z)
SA-DVAE: Improving Zero-Shot Skeleton-Based Action Recognition by Disentangled Variational Autoencoders [7.618223798662929]
本稿では,分散変分オートエンコーダを用いたSA-DVAE-セマンティックアライメントを提案する。このアイデアは,一対のモダリティ特異的変分オートエンコーダと全補正ペナルティによって実現される。実験の結果,SA-DAVEは既存手法よりも性能が向上していることがわかった。
論文参考訳（メタデータ） (2024-07-18T12:35:46Z)
An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文参考訳（メタデータ） (2024-06-02T06:53:01Z)
S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠であるこれまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-22T11:40:49Z)
FOCAL: Contrastive Learning for Multimodal Time-Series Sensing Signals in Factorized Orthogonal Latent Space [7.324708513042455]
本稿では,マルチモーダル時系列センシング信号から包括的特徴を抽出する,FOCALと呼ばれる新しいコントラスト学習フレームワークを提案する。ダウンストリームタスクにおける最先端のベースラインを、明確なマージンで一貫して上回る。
論文参考訳（メタデータ） (2023-10-30T22:55:29Z)
Exploiting Spatial-temporal Data for Sleep Stage Classification via Hypergraph Learning [16.802013781690402]
睡眠段階分類のための時空間データをエンコードするハイパーグラフを導入した動的学習フレームワークSTHLを提案する。提案したSTHLは睡眠段階分類タスクにおける最先端モデルよりも優れる。
論文参考訳（メタデータ） (2023-09-05T11:01:30Z)
Linking data separation, visual separation, and classifier performance using pseudo-labeling by contrastive learning [125.99533416395765]
最終分類器の性能は、潜在空間に存在するデータ分離と、射影に存在する視覚的分離に依存すると論じる。本研究は,ヒト腸管寄生虫の5つの現実的課題の画像データセットを1%の教師付きサンプルで分類し,その結果を実証する。
論文参考訳（メタデータ） (2023-02-06T10:01:38Z)
Spatiotemporal Decouple-and-Squeeze Contrastive Learning for Semi-Supervised Skeleton-based Action Recognition [12.601122522537459]
骨格に基づく行動のより豊富な表現を学習するための新しいSDS-CL(Stemporal Deouple Contrastive Learning)フレームワークを提案する。我々は,新しいテンポラル・スクイージング・ロス(STL),新しいテンポラル・スクイージング・ロス(TSL),およびグローバル・コントラスト・ロス(GL)を,フレームレベルでの空間的スクイージング関節と運動の特徴,関節レベルでの時間的スクイージング関節と運動の特徴,および骨格レベルでのグローバルな関節と運動特徴とを対比するために提示する。
論文参考訳（メタデータ） (2023-02-05T06:52:25Z)
Leveraging Spatio-Temporal Dependency for Skeleton-Based Action Recognition [9.999149887494646]
骨格をベースとした行動認識は、人体の骨格縫合のコンパクトな表現により、かなりの注目を集めている。グラフ畳み込みニューラルネットワーク(GCN)と畳み込みニューラルネットワーク(CNN)を用いた最近の多くの手法が目覚ましい性能を実現している。
論文参考訳（メタデータ） (2022-12-09T10:37:22Z)
Learning Appearance-motion Normality for Video Anomaly Detection [11.658792932975652]
時空間記憶を付加した2ストリーム自動エンコーダフレームワークを提案する。見た目の正常さと動きの正常さを独立に学習し、敵の学習を通して相関関係を探索する。我々のフレームワークは最先端の手法より優れており、UCSD Ped2とCUHK Avenueのデータセットで98.1%、89.8%のAUCを実現している。
論文参考訳（メタデータ） (2022-07-27T08:30:19Z)
Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文参考訳（メタデータ） (2022-07-17T07:05:39Z)
Multi-scale and Cross-scale Contrastive Learning for Semantic Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文参考訳（メタデータ） (2022-03-25T01:24:24Z)
Joint-bone Fusion Graph Convolutional Network for Semi-supervised Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文参考訳（メタデータ） (2022-02-08T16:03:15Z)
Spatial-Temporal Correlation and Topology Learning for Person Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。 CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文参考訳（メタデータ） (2021-04-15T14:32:12Z)
Adversarial Feature Augmentation and Normalization for Visual Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文参考訳（メタデータ） (2021-03-22T20:36:34Z)
Tensor Representations for Action Recognition [54.710267354274194]
シーケンスにおける人間の行動は、空間的特徴とその時間的ダイナミクスの複雑な相互作用によって特徴づけられる。アクション認識タスクの視覚的特徴間の高次関係を捉えるための新しいテンソル表現を提案する。我々は,高次テンソルといわゆる固有値パワー正規化(NEP)を用いて,高次事象のスペクトル検出を行う。
論文参考訳（メタデータ） (2020-12-28T17:27:18Z)
A Self-Supervised Gait Encoding Approach with Locality-Awareness for 3D Skeleton Based Person Re-Identification [65.18004601366066]
3Dスケルトン配列内の歩行特徴による人物再識別(Re-ID)は、いくつかの利点を持つ新しい話題である。本稿では、ラベルのない骨格データを利用して人物の歩行表現を学習できる自己教師付き歩行符号化手法を提案する。
論文参考訳（メタデータ） (2020-09-05T16:06:04Z)
Skeleton Based Action Recognition using a Stacked Denoising Autoencoder with Constraints of Privileged Information [5.67220249825603]
本稿では骨格再構築の観点から骨格表現を研究するための新しい手法を提案する。特権情報に基づく学習の概念に基づいて,動作カテゴリと時間座標を重畳したデノナイジングオートエンコーダに統合する。一時的ミスアライメントによる変動を軽減するため,新しい時間的登録法を提案する。
論文参考訳（メタデータ） (2020-03-12T09:56:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。