論文の概要: A Generically Contrastive Spatiotemporal Representation Enhancement for 3D Skeleton Action Recognition
- arxiv url: http://arxiv.org/abs/2312.15144v4
- Date: Mon, 17 Mar 2025 08:45:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 17:12:40.826554
- Title: A Generically Contrastive Spatiotemporal Representation Enhancement for 3D Skeleton Action Recognition
- Title(参考訳): 3次元スケルトン行動認識のための対時空間表現のジェネラルコントラスト化
- Authors: Shaojie Zhang, Jianqin Yin, Yonghao Dang,
- Abstract要約: 本稿では, 比較時空間表現拡張(CSRE)フレームワークを提案する。
具体的には、その表現を空間的特徴と時間的特徴に分解し、微細な動きパターンを探索する。
潜伏したデータ分布を明示的に活用するために、コントラスト学習に注意的特徴を用いて、クロスシーケンスセマンティックリレーションをモデル化する。
- 参考スコア(独自算出の注目度): 10.403751563214113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skeleton-based action recognition is a central task in computer vision and human-robot interaction. However, most previous methods suffer from overlooking the explicit exploitation of the latent data distributions (i.e., the intra-class variations and inter-class relations), thereby leading to confusion about ambiguous samples and sub-optimum solutions of the skeleton encoders. To mitigate this, we propose a Contrastive Spatiotemporal Representation Enhancement (CSRE) framework to obtain more discriminative representations from the sequences, which can be incorporated into various previous skeleton encoders and can be removed when testing. Specifically, we decompose the representation into spatial- and temporal-specific features to explore fine-grained motion patterns along the corresponding dimensions. Furthermore, to explicitly exploit the latent data distributions, we employ the attentive features to contrastive learning, which models the cross-sequence semantic relations by pulling together the features from the positive pairs and pushing away the negative pairs. Extensive experiments show that CSRE with five various skeleton encoders (HCN, 2S-AGCN, CTR-GCN, Hyperformer, and BlockGCN) achieves solid improvements on five benchmarks. The code will be released at https://github.com/zhshj0110/CSRE.
- Abstract(参考訳): 骨格に基づく行動認識は、コンピュータビジョンと人間とロボットの相互作用において中心的な課題である。
しかし、従来のほとんどの手法は、潜伏データ分布(クラス内変異とクラス間関係)の明示的な利用を見越すことに悩まされ、その結果、不明瞭なサンプルと骨格エンコーダの準最適解が混同される。
これを軽減するために,従来のスケルトンエンコーダに組み込むことができ,テスト時に取り除くことが可能なシーケンスから,より識別的な表現を得るためのコントラスト時空間表現拡張(CSRE)フレームワークを提案する。
具体的には、その表現を空間的特徴と時間的特徴に分解し、対応する次元に沿った微細な動きパターンを探索する。
さらに、潜在データ分布を明示的に活用するために、正のペアから特徴を抽出し、負のペアを強制的に取り除くことで、系列間の意味関係をモデル化するコントラスト学習に注意的特徴を用いる。
5種類のスケルトンエンコーダ(HCN, 2S-AGCN, CTR-GCN, Hyperformer, BlockGCN)によるCSREは5つのベンチマークでしっかりと改善されている。
コードはhttps://github.com/zhshj0110/CSREで公開される。
関連論文リスト
- USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation [24.90512145836643]
本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。
我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-12T12:20:27Z) - Neuron: Learning Context-Aware Evolving Representations for Zero-Shot Skeleton Action Recognition [64.56321246196859]
本稿では,dUalスケルトン・セマンティック・セマンティック・セマンティック・セマンティック・シンジスティック・フレームワークを提案する。
まず、時空間進化型マイクロプロトタイプを構築し、動的コンテキスト認識側情報を統合する。
本研究では,空間的圧縮と時間的記憶機構を導入し,空間的時間的マイクロプロトタイプの成長を導く。
論文 参考訳(メタデータ) (2024-11-18T05:16:11Z) - SA-DVAE: Improving Zero-Shot Skeleton-Based Action Recognition by Disentangled Variational Autoencoders [7.618223798662929]
本稿では,分散変分オートエンコーダを用いたSA-DVAE-セマンティックアライメントを提案する。
このアイデアは,一対のモダリティ特異的変分オートエンコーダと全補正ペナルティによって実現される。
実験の結果,SA-DAVEは既存手法よりも性能が向上していることがわかった。
論文 参考訳(メタデータ) (2024-07-18T12:35:46Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - FOCAL: Contrastive Learning for Multimodal Time-Series Sensing Signals
in Factorized Orthogonal Latent Space [7.324708513042455]
本稿では,マルチモーダル時系列センシング信号から包括的特徴を抽出する,FOCALと呼ばれる新しいコントラスト学習フレームワークを提案する。
ダウンストリームタスクにおける最先端のベースラインを、明確なマージンで一貫して上回る。
論文 参考訳(メタデータ) (2023-10-30T22:55:29Z) - Exploiting Spatial-temporal Data for Sleep Stage Classification via
Hypergraph Learning [16.802013781690402]
睡眠段階分類のための時空間データをエンコードするハイパーグラフを導入した動的学習フレームワークSTHLを提案する。
提案したSTHLは睡眠段階分類タスクにおける最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2023-09-05T11:01:30Z) - Linking data separation, visual separation, and classifier performance
using pseudo-labeling by contrastive learning [125.99533416395765]
最終分類器の性能は、潜在空間に存在するデータ分離と、射影に存在する視覚的分離に依存すると論じる。
本研究は,ヒト腸管寄生虫の5つの現実的課題の画像データセットを1%の教師付きサンプルで分類し,その結果を実証する。
論文 参考訳(メタデータ) (2023-02-06T10:01:38Z) - Spatiotemporal Decouple-and-Squeeze Contrastive Learning for
Semi-Supervised Skeleton-based Action Recognition [12.601122522537459]
骨格に基づく行動のより豊富な表現を学習するための新しいSDS-CL(Stemporal Deouple Contrastive Learning)フレームワークを提案する。
我々は,新しいテンポラル・スクイージング・ロス(STL),新しいテンポラル・スクイージング・ロス(TSL),およびグローバル・コントラスト・ロス(GL)を,フレームレベルでの空間的スクイージング関節と運動の特徴,関節レベルでの時間的スクイージング関節と運動の特徴,および骨格レベルでのグローバルな関節と運動特徴とを対比するために提示する。
論文 参考訳(メタデータ) (2023-02-05T06:52:25Z) - Leveraging Spatio-Temporal Dependency for Skeleton-Based Action
Recognition [9.999149887494646]
骨格をベースとした行動認識は、人体の骨格縫合のコンパクトな表現により、かなりの注目を集めている。
グラフ畳み込みニューラルネットワーク(GCN)と畳み込みニューラルネットワーク(CNN)を用いた最近の多くの手法が目覚ましい性能を実現している。
論文 参考訳(メタデータ) (2022-12-09T10:37:22Z) - Learning Appearance-motion Normality for Video Anomaly Detection [11.658792932975652]
時空間記憶を付加した2ストリーム自動エンコーダフレームワークを提案する。
見た目の正常さと動きの正常さを独立に学習し、敵の学習を通して相関関係を探索する。
我々のフレームワークは最先端の手法より優れており、UCSD Ped2とCUHK Avenueのデータセットで98.1%、89.8%のAUCを実現している。
論文 参考訳(メタデータ) (2022-07-27T08:30:19Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Tensor Representations for Action Recognition [54.710267354274194]
シーケンスにおける人間の行動は、空間的特徴とその時間的ダイナミクスの複雑な相互作用によって特徴づけられる。
アクション認識タスクの視覚的特徴間の高次関係を捉えるための新しいテンソル表現を提案する。
我々は,高次テンソルといわゆる固有値パワー正規化(NEP)を用いて,高次事象のスペクトル検出を行う。
論文 参考訳(メタデータ) (2020-12-28T17:27:18Z) - A Self-Supervised Gait Encoding Approach with Locality-Awareness for 3D
Skeleton Based Person Re-Identification [65.18004601366066]
3Dスケルトン配列内の歩行特徴による人物再識別(Re-ID)は、いくつかの利点を持つ新しい話題である。
本稿では、ラベルのない骨格データを利用して人物の歩行表現を学習できる自己教師付き歩行符号化手法を提案する。
論文 参考訳(メタデータ) (2020-09-05T16:06:04Z) - Skeleton Based Action Recognition using a Stacked Denoising Autoencoder
with Constraints of Privileged Information [5.67220249825603]
本稿では骨格再構築の観点から骨格表現を研究するための新しい手法を提案する。
特権情報に基づく学習の概念に基づいて,動作カテゴリと時間座標を重畳したデノナイジングオートエンコーダに統合する。
一時的ミスアライメントによる変動を軽減するため,新しい時間的登録法を提案する。
論文 参考訳(メタデータ) (2020-03-12T09:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。