論文の概要: Multi-Scale Spatial Temporal Graph Convolutional Network for
Skeleton-Based Action Recognition
- arxiv url: http://arxiv.org/abs/2206.13028v1
- Date: Mon, 27 Jun 2022 03:17:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 15:10:13.142200
- Title: Multi-Scale Spatial Temporal Graph Convolutional Network for
Skeleton-Based Action Recognition
- Title(参考訳): 骨格に基づく行動認識のためのマルチスケール時空間グラフ畳み込みネットワーク
- Authors: Zhan Chen, Sicheng Li, Bing Yang, Qinghan Li, Hong Liu
- Abstract要約: 本稿では,マルチスケール空間グラフ畳み込み (MS-GC) モジュールとマルチスケール時間グラフ畳み込み (MT-GC) モジュールを提案する。
MS-GCおよびMT-GCモジュールは対応する局所グラフ畳み込みをサブグラフ畳み込みの集合に分解し、階層的残差アーキテクチャを形成する。
本稿では,マルチスケールな時空間グラフ畳み込みネットワーク(MST-GCN)を提案する。
- 参考スコア(独自算出の注目度): 13.15374205970988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph convolutional networks have been widely used for skeleton-based action
recognition due to their excellent modeling ability of non-Euclidean data. As
the graph convolution is a local operation, it can only utilize the short-range
joint dependencies and short-term trajectory but fails to directly model the
distant joints relations and long-range temporal information that are vital to
distinguishing various actions. To solve this problem, we present a multi-scale
spatial graph convolution (MS-GC) module and a multi-scale temporal graph
convolution (MT-GC) module to enrich the receptive field of the model in
spatial and temporal dimensions. Concretely, the MS-GC and MT-GC modules
decompose the corresponding local graph convolution into a set of sub-graph
convolution, forming a hierarchical residual architecture. Without introducing
additional parameters, the features will be processed with a series of
sub-graph convolutions, and each node could complete multiple spatial and
temporal aggregations with its neighborhoods. The final equivalent receptive
field is accordingly enlarged, which is capable of capturing both short- and
long-range dependencies in spatial and temporal domains. By coupling these two
modules as a basic block, we further propose a multi-scale spatial temporal
graph convolutional network (MST-GCN), which stacks multiple blocks to learn
effective motion representations for action recognition. The proposed MST-GCN
achieves remarkable performance on three challenging benchmark datasets, NTU
RGB+D, NTU-120 RGB+D and Kinetics-Skeleton, for skeleton-based action
recognition.
- Abstract(参考訳): グラフ畳み込みネットワークは非ユークリッドデータの優れたモデリング能力のために骨格に基づく行動認識に広く利用されている。
グラフ畳み込みは局所的な操作であるため、短距離ジョイント依存性と短距離軌道のみを活用できるが、様々な動作の識別に不可欠な遠距離ジョイント関係や長距離時間情報を直接モデル化することができない。
この問題を解決するために,マルチスケール空間グラフ畳み込み (MS-GC) モジュールとマルチスケール時間グラフ畳み込み (MT-GC) モジュールを提案する。
具体的には、MS-GCとMT-GCモジュールは対応する局所グラフ畳み込みをサブグラフ畳み込みの集合に分解し、階層的残留アーキテクチャを形成する。
追加パラメータを導入することなく、これらの特徴は一連のサブグラフ畳み込みで処理され、各ノードはその近傍で複数の空間的および時間的集約を完了できる。
最終的な等価受容場は拡大され、空間的および時間的領域における短距離および長距離の依存関係をキャプチャすることができる。
さらに,これら2つのモジュールを基本ブロックとして結合することにより,複数のブロックを積み重ねたマルチスケール空間時空間グラフ畳み込みネットワーク(MST-GCN)を提案する。
提案したMST-GCNは,NTU RGB+D,NTU-120 RGB+D,Kinetics-Skeletonの3つのベンチマークデータセットにおいて,骨格に基づく行動認識のための顕著な性能を実現している。
関連論文リスト
- Multi-Scale Spatial-Temporal Self-Attention Graph Convolutional Networks for Skeleton-based Action Recognition [0.0]
本稿では,マルチスケール空間時間自己注意(MSST)-GCNという自己注意型GCNハイブリッドモデルを提案する。
適応トポロジを持つ空間自己保持モジュールを用いて、異なる身体部分間のフレーム内相互作用を理解するとともに、時間的自己保持モジュールを用いてノードのフレーム間の相関関係を調べる。
論文 参考訳(メタデータ) (2024-04-03T10:25:45Z) - Mending of Spatio-Temporal Dependencies in Block Adjacency Matrix [3.529869282529924]
本稿では,時間的依存を考慮に入れた新たなエンドツーエンド学習アーキテクチャを提案する。
提案手法は,SurgVisDomやC2D2などのベンチマークデータセット上での優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-04T06:42:33Z) - Leveraging Spatio-Temporal Dependency for Skeleton-Based Action
Recognition [9.999149887494646]
骨格をベースとした行動認識は、人体の骨格縫合のコンパクトな表現により、かなりの注目を集めている。
グラフ畳み込みニューラルネットワーク(GCN)と畳み込みニューラルネットワーク(CNN)を用いた最近の多くの手法が目覚ましい性能を実現している。
論文 参考訳(メタデータ) (2022-12-09T10:37:22Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - Multi-Scale Semantics-Guided Neural Networks for Efficient
Skeleton-Based Human Action Recognition [140.18376685167857]
スケルトンに基づく行動認識には,単純なマルチスケールセマンティクス誘導ニューラルネットワークが提案されている。
MS-SGNは、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-07T03:50:50Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Temporal Graph Modeling for Skeleton-based Action Recognition [25.788239844759246]
複雑な時間的ダイナミクスを捉えるための時間拡張グラフ畳み込みネットワーク(TE-GCN)を提案する。
構築された時間関係グラフは、意味的に関連する時間的特徴間の接続を明示的に構築する。
2つの大規模データセットで実験を行う。
論文 参考訳(メタデータ) (2020-12-16T09:02:47Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。