論文の概要: SCD-Net: Spatiotemporal Clues Disentanglement Network for
Self-supervised Skeleton-based Action Recognition
- arxiv url: http://arxiv.org/abs/2309.05834v1
- Date: Mon, 11 Sep 2023 21:32:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 14:58:57.786820
- Title: SCD-Net: Spatiotemporal Clues Disentanglement Network for
Self-supervised Skeleton-based Action Recognition
- Title(参考訳): SCD-Net:自己教師型骨格に基づく行動認識のための時空間対角ネットワーク
- Authors: Cong Wu, Xiao-Jun Wu, Josef Kittler, Tianyang Xu, Sara Atito, Muhammad
Awais, Zhenhua Feng
- Abstract要約: 本稿では、SCD-Net(Stemporal Clues Disentanglement Network)という、対照的な学習フレームワークを紹介する。
具体的には,これらのシーケンスを特徴抽出器と統合し,空間領域と時間領域からそれぞれ明確な手がかりを導出する。
我々は,NTU-+D (60&120) PKU-MMDI (&I) データセットの評価を行い,行動認識,行動検索,伝達学習などの下流タスクを網羅した。
- 参考スコア(独自算出の注目度): 39.99711066167837
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Contrastive learning has achieved great success in skeleton-based action
recognition. However, most existing approaches encode the skeleton sequences as
entangled spatiotemporal representations and confine the contrasts to the same
level of representation. Instead, this paper introduces a novel contrastive
learning framework, namely Spatiotemporal Clues Disentanglement Network
(SCD-Net). Specifically, we integrate the decoupling module with a feature
extractor to derive explicit clues from spatial and temporal domains
respectively. As for the training of SCD-Net, with a constructed global anchor,
we encourage the interaction between the anchor and extracted clues. Further,
we propose a new masking strategy with structural constraints to strengthen the
contextual associations, leveraging the latest development from masked image
modelling into the proposed SCD-Net. We conduct extensive evaluations on the
NTU-RGB+D (60&120) and PKU-MMD (I&II) datasets, covering various downstream
tasks such as action recognition, action retrieval, transfer learning, and
semi-supervised learning. The experimental results demonstrate the
effectiveness of our method, which outperforms the existing state-of-the-art
(SOTA) approaches significantly.
- Abstract(参考訳): 対照的な学習は骨格に基づく行動認識において大きな成功を収めた。
しかし、既存のほとんどのアプローチは、骨格配列を絡み合った時空間表現としてエンコードし、コントラストを同じレベルの表現に限定する。
そこで本稿では,SCD-Net(Spatiotemporal Clues Disentanglement Network)という,新しいコントラスト学習フレームワークを提案する。
具体的には,デカップリングモジュールを特徴抽出器に統合し,空間領域と時間領域からそれぞれ明確な手がかりを導出する。
SCD-Netのトレーニングでは、構築されたグローバルアンカーを用いて、アンカーと抽出した手がかりとの相互作用を奨励する。
さらに,マスク付き画像モデリングからSCD-Netへの最新の発展を生かして,コンテキスト関連性を強化するための構造制約付き新しいマスキング戦略を提案する。
我々は,NTU-RGB+D (60&120) と PKU-MMD (I&II) データセットを広範囲に評価し,行動認識,行動検索,移動学習,半教師付き学習などの下流タスクを網羅した。
実験の結果,既存のSOTA(State-of-the-art)手法よりも高い性能を示した。
関連論文リスト
- Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images [16.0258685984844]
継続的学習(CL)は、一方的なトレーニングの方法を破壊し、モデルが新しいデータ、セマンティクス、タスクに継続的に適応できるようにする。
本稿では,画素レベルの分類,インスタンスレベルのセグメンテーション,イメージレベルの知覚を対象とするマルチタスク共同学習を利用した統合型連続学習モデルを提案する。
論文 参考訳(メタデータ) (2024-07-19T12:22:32Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Cross-Video Contextual Knowledge Exploration and Exploitation for
Ambiguity Reduction in Weakly Supervised Temporal Action Localization [23.94629999419033]
弱教師付き時間的行動ローカライゼーション(WSTAL)は、ビデオレベルのラベルを用いて、未トリミングビデオ中のアクションをローカライズすることを目的としている。
私たちの研究は、データセット内のビデオ間のコンテキスト知識を探索し、活用することで、これを新しい視点から解決します。
我々の手法は最先端の手法よりも優れており、他のWSTAL手法に簡単に接続できる。
論文 参考訳(メタデータ) (2023-08-24T07:19:59Z) - Self-supervised Action Representation Learning from Partial
Spatio-Temporal Skeleton Sequences [29.376328807860993]
本研究では,異なる骨格関節とビデオフレームの局所的関係を利用した部分的時空間学習(PSTL)フレームワークを提案する。
提案手法は, NTURGB+D 60, NTURGBMM+D 120, PKU-Dのダウンストリームタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-17T17:35:05Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Contrast-reconstruction Representation Learning for Self-supervised
Skeleton-based Action Recognition [18.667198945509114]
コントラスト再構成表現学習ネットワーク(CRRL)を提案する。
姿勢と運動のダイナミクスを同時に捉え、教師なし骨格に基づく行動認識を行う。
NTU RGB+D 60, NTU RGB+D 120, CMU mocap, NW-UCLA といったいくつかのベンチマークの実験結果から、提案したCRRL法が実現可能であることが示された。
論文 参考訳(メタデータ) (2021-11-22T08:45:34Z) - Spatial-Temporal Multi-Cue Network for Continuous Sign Language
Recognition [141.24314054768922]
本稿では、視覚に基づくシーケンス学習問題を解決するために、時空間マルチキュー(STMC)ネットワークを提案する。
有効性を検証するため、3つの大規模CSLRベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-02-08T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。