論文の概要: Decoupled Spatial-Temporal Attention Network for Skeleton-Based Action
Recognition
- arxiv url: http://arxiv.org/abs/2007.03263v1
- Date: Tue, 7 Jul 2020 07:58:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 20:00:30.801213
- Title: Decoupled Spatial-Temporal Attention Network for Skeleton-Based Action
Recognition
- Title(参考訳): スケルトンに基づく行動認識のための分離時空間注意ネットワーク
- Authors: Lei Shi, Yifan Zhang, Jian Cheng and Hanqing Lu
- Abstract要約: 本稿では,骨格に基づく行動認識のための空間的注意ネットワーク(DSTA-Net)を提案する。
注意ブロックの構築には,空間的時間的注意分離,非結合位置符号化,空間的大域正規化という3つの手法が提案されている。
提案手法の有効性を検証するため,骨格に基づくジェスチャーと行動認識のための4つの挑戦的データセットについて広範な実験を行った。
- 参考スコア(独自算出の注目度): 46.836815779215456
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Dynamic skeletal data, represented as the 2D/3D coordinates of human joints,
has been widely studied for human action recognition due to its high-level
semantic information and environmental robustness. However, previous methods
heavily rely on designing hand-crafted traversal rules or graph topologies to
draw dependencies between the joints, which are limited in performance and
generalizability. In this work, we present a novel decoupled spatial-temporal
attention network(DSTA-Net) for skeleton-based action recognition. It involves
solely the attention blocks, allowing for modeling spatial-temporal
dependencies between joints without the requirement of knowing their positions
or mutual connections. Specifically, to meet the specific requirements of the
skeletal data, three techniques are proposed for building attention blocks,
namely, spatial-temporal attention decoupling, decoupled position encoding and
spatial global regularization. Besides, from the data aspect, we introduce a
skeletal data decoupling technique to emphasize the specific characteristics of
space/time and different motion scales, resulting in a more comprehensive
understanding of the human actions.To test the effectiveness of the proposed
method, extensive experiments are conducted on four challenging datasets for
skeleton-based gesture and action recognition, namely, SHREC, DHG, NTU-60 and
NTU-120, where DSTA-Net achieves state-of-the-art performance on all of them.
- Abstract(参考訳): ヒト関節の2D/3D座標として表される動的骨格データは、その高レベルな意味情報と環境の堅牢性により、人間の行動認識のために広く研究されている。
しかし、従来の手法は手作りのトラバーサルルールやグラフトポロジの設計に大きく依存しており、性能と一般化性に制限がある。
本稿では,スケルトンベース行動認識のための空間時空間注意ネットワーク(dsta-net)を提案する。
注意ブロックのみを伴い、位置や相互接続を知る必要なしに関節間の空間的時間的依存関係をモデル化することができる。
具体的には、骨格データの特定の要件を満たすために、空間的時間的注意分離、非結合位置符号化、空間的大域正規化の3つの手法が提案されている。
Besides, from the data aspect, we introduce a skeletal data decoupling technique to emphasize the specific characteristics of space/time and different motion scales, resulting in a more comprehensive understanding of the human actions.To test the effectiveness of the proposed method, extensive experiments are conducted on four challenging datasets for skeleton-based gesture and action recognition, namely, SHREC, DHG, NTU-60 and NTU-120, where DSTA-Net achieves state-of-the-art performance on all of them.
関連論文リスト
- Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - On the spatial attention in Spatio-Temporal Graph Convolutional Networks
for skeleton-based human action recognition [97.14064057840089]
カルチャーネットワーク(GCN)は、スケルトンをグラフとしてモデル化することで、スケルトンに基づく人間の行動認識の性能を約束する。
最近提案されたG時間に基づく手法のほとんどは、ネットワークの各層におけるグラフ構造を学習することで、性能を向上させる。
論文 参考訳(メタデータ) (2020-11-07T19:03:04Z) - Skeleton-based Action Recognition via Spatial and Temporal Transformer
Networks [12.06555892772049]
本研究では,トランスフォーマーの自己アテンション演算子を用いて,関節間の依存関係をモデル化する空間-テンポラルトランスフォーマーネットワークを提案する。
提案したST-TRは,関節座標を入力として使用する場合のすべてのデータセットの最先端性能を達成し,骨情報を追加する場合の最先端特性と一致させる。
論文 参考訳(メタデータ) (2020-08-17T15:25:40Z) - What and Where: Modeling Skeletons from Semantic and Spatial
Perspectives for Action Recognition [46.836815779215456]
本研究では,新しい空間的視点から骨格をモデル化することを提案する。
意味論的観点から,共同関係のモデル化に熟練したトランスフォーマー型ネットワークを提案する。
空間的観点から,スケルトンデータをスパース形式に変換し,効率的な特徴抽出を行う。
論文 参考訳(メタデータ) (2020-04-07T10:53:45Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。