論文の概要: SpatioTemporal Focus for Skeleton-based Action Recognition
- arxiv url: http://arxiv.org/abs/2203.16767v1
- Date: Thu, 31 Mar 2022 02:45:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 15:04:29.841163
- Title: SpatioTemporal Focus for Skeleton-based Action Recognition
- Title(参考訳): スケルトンに基づく行動認識のための時空間焦点
- Authors: Liyu Wu, Can Zhang, Yuexian Zou
- Abstract要約: グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
- 参考スコア(独自算出の注目度): 66.8571926307011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph convolutional networks (GCNs) are widely adopted in skeleton-based
action recognition due to their powerful ability to model data topology. We
argue that the performance of recent proposed skeleton-based action recognition
methods is limited by the following factors. First, the predefined graph
structures are shared throughout the network, lacking the flexibility and
capacity to model the multi-grain semantic information. Second, the relations
among the global joints are not fully exploited by the graph local convolution,
which may lose the implicit joint relevance. For instance, actions such as
running and waving are performed by the co-movement of body parts and joints,
e.g., legs and arms, however, they are located far away in physical connection.
Inspired by the recent attention mechanism, we propose a multi-grain contextual
focus module, termed MCF, to capture the action associated relation information
from the body joints and parts. As a result, more explainable representations
for different skeleton action sequences can be obtained by MCF. In this study,
we follow the common practice that the dense sample strategy of the input
skeleton sequences is adopted and this brings much redundancy since number of
instances has nothing to do with actions. To reduce the redundancy, a temporal
discrimination focus module, termed TDF, is developed to capture the local
sensitive points of the temporal dynamics. MCF and TDF are integrated into the
standard GCN network to form a unified architecture, named STF-Net. It is noted
that STF-Net provides the capability to capture robust movement patterns from
these skeleton topology structures, based on multi-grain context aggregation
and temporal dependency. Extensive experimental results show that our STF-Net
significantly achieves state-of-the-art results on three challenging benchmarks
NTU RGB+D 60, NTU RGB+D 120, and Kinetics-skeleton.
- Abstract(参考訳): グラフ畳み込みネットワーク(gcns)は、データトポロジーをモデル化する能力があるため、スケルトンベースの行動認識に広く採用されている。
近年提案されたスケルトンに基づく行動認識手法の性能は,以下の要因によって制限されている。
まず、事前に定義されたグラフ構造はネットワーク全体で共有され、マルチグリッドの意味情報をモデル化する柔軟性と能力に欠ける。
第2に、グローバルジョイント間の関係はグラフ局所畳み込みによって完全には利用されず、暗黙のジョイント関係を失う可能性がある。
例えば、走ったり振ったりといった動作は、体の一部や関節、例えば脚や腕の協調動作によって行われるが、それらは物理的に遠く離れている。
近年の注目機構に着想を得て,動作関連関係情報を身体関節や部分から収集するマルチグラインド・コンテキスト・フォーカス・モジュール MCF を提案する。
その結果、異なるスケルトンアクションシーケンスに対するより説明可能な表現がmcfによって得られる。
本研究では,入力スケルトン配列の密集したサンプル戦略が採用され,インスタンス数が動作と無関係であることから冗長性が高まるという一般的な手法に従う。
冗長性を低減するために,tdfと呼ばれる時間的識別焦点モジュールを開発し,時間的ダイナミクスの局所的感度点を捉える。
MCFとTDFは標準のGCNネットワークに統合され、STF-Netと呼ばれる統一アーキテクチャを形成する。
stf-netは、多面的コンテキストアグリゲーションと時間的依存性に基づいて、これらの骨格トポロジ構造からロバストな動きパターンをキャプチャする機能を提供する。
我々のSTF-Netは, NTU RGB+D 60, NTU RGB+D 120, Kinetics-skeletonの3つの挑戦的ベンチマークにおいて, 最先端の結果を著しく達成している。
関連論文リスト
- Multi-Scale Spatial-Temporal Self-Attention Graph Convolutional Networks for Skeleton-based Action Recognition [0.0]
本稿では,マルチスケール空間時間自己注意(MSST)-GCNという自己注意型GCNハイブリッドモデルを提案する。
適応トポロジを持つ空間自己保持モジュールを用いて、異なる身体部分間のフレーム内相互作用を理解するとともに、時間的自己保持モジュールを用いてノードのフレーム間の相関関係を調べる。
論文 参考訳(メタデータ) (2024-04-03T10:25:45Z) - Overcoming Topology Agnosticism: Enhancing Skeleton-Based Action
Recognition through Redefined Skeletal Topology Awareness [24.83836008577395]
グラフ畳み込みネットワーク(GCN)は長い間、骨格に基づく行動認識の最先端を定義してきた。
彼らはモデルの重みとともに隣接行列を最適化する傾向がある。
このプロセスは、骨接続データの段階的な崩壊を引き起こし、マッピングしようとしたトポロジとは無関係なモデルで終わる。
本稿では,骨の接続性をグラフ距離のパワーを利用して符号化する革新的な経路を提案する。
論文 参考訳(メタデータ) (2023-05-19T06:40:12Z) - Pose-Guided Graph Convolutional Networks for Skeleton-Based Action
Recognition [32.07659338674024]
グラフ畳み込みネットワーク(GCN)は、人体骨格を空間的および時間的グラフとしてモデル化することができる。
本研究では,高性能な人行動認識のためのマルチモーダルフレームワークとして,ポーズ誘導型GCN(PG-GCN)を提案する。
このモジュールの中核となる考え方は、トレーニング可能なグラフを使用して、スケルトンストリームから、ポーズストリームの機能を集約することで、より堅牢な機能表現能力を持つネットワークを実現することだ。
論文 参考訳(メタデータ) (2022-10-10T02:08:49Z) - Multi-Scale Spatial Temporal Graph Convolutional Network for
Skeleton-Based Action Recognition [13.15374205970988]
本稿では,マルチスケール空間グラフ畳み込み (MS-GC) モジュールとマルチスケール時間グラフ畳み込み (MT-GC) モジュールを提案する。
MS-GCおよびMT-GCモジュールは対応する局所グラフ畳み込みをサブグラフ畳み込みの集合に分解し、階層的残差アーキテクチャを形成する。
本稿では,マルチスケールな時空間グラフ畳み込みネットワーク(MST-GCN)を提案する。
論文 参考訳(メタデータ) (2022-06-27T03:17:33Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Multi-Scale Semantics-Guided Neural Networks for Efficient
Skeleton-Based Human Action Recognition [140.18376685167857]
スケルトンに基づく行動認識には,単純なマルチスケールセマンティクス誘導ニューラルネットワークが提案されている。
MS-SGNは、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-07T03:50:50Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - HAN: An Efficient Hierarchical Self-Attention Network for Skeleton-Based
Gesture Recognition [73.64451471862613]
骨格に基づくジェスチャー認識のための効率的な階層型自己認識ネットワーク(HAN)を提案する。
ジョイント・セルフアテンション・モジュールは指の空間的特徴を捉え、指の自己アテンション・モジュールは手全体の特徴を集約するように設計されている。
実験の結果,3つのジェスチャ認識データセットに対して,計算複雑性がはるかに低い競合的な結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-06-25T02:15:53Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。