論文の概要: Leveraging Spatio-Temporal Dependency for Skeleton-Based Action
Recognition
- arxiv url: http://arxiv.org/abs/2212.04761v1
- Date: Fri, 9 Dec 2022 10:37:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 15:21:59.966195
- Title: Leveraging Spatio-Temporal Dependency for Skeleton-Based Action
Recognition
- Title(参考訳): スケルトンに基づく行動認識における時空間依存性の活用
- Authors: Jungho Lee, Minhyeok Lee, Suhwan Cho, Sungmin Woo, and Sangyoun Lee
- Abstract要約: 骨格に基づく行動認識は、人体の骨格構造がコンパクトであるため、かなりの注目を集めている。
最近の多くの手法はグラフ畳み込みネットワーク(GCN)を用いて顕著な性能を実現している。
人間の骨格の空間的および時間的依存性を活用するためのフレーム間ネットワーク(IFC-Net)を提案する。
- 参考スコア(独自算出の注目度): 10.595257420541326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skeleton-based action recognition has attracted considerable attention due to
its compact skeletal structure of the human body. Many recent methods have
achieved remarkable performance using graph convolutional networks (GCNs) and
convolutional neural networks (CNNs), which extract spatial and temporal
features, respectively. Although spatial and temporal dependencies in the human
skeleton have been explored, spatio-temporal dependency is rarely considered.
In this paper, we propose the Inter-Frame Curve Network (IFC-Net) to
effectively leverage the spatio-temporal dependency of the human skeleton. Our
proposed network consists of two novel elements: 1) The Inter-Frame Curve (IFC)
module; and 2) Dilated Graph Convolution (D-GC). The IFC module increases the
spatio-temporal receptive field by identifying meaningful node connections
between every adjacent frame and generating spatio-temporal curves based on the
identified node connections. The D-GC allows the network to have a large
spatial receptive field, which specifically focuses on the spatial domain. The
kernels of D-GC are computed from the given adjacency matrices of the graph and
reflect large receptive field in a way similar to the dilated CNNs. Our IFC-Net
combines these two modules and achieves state-of-the-art performance on three
skeleton-based action recognition benchmarks: NTU-RGB+D 60, NTU-RGB+D 120, and
Northwestern-UCLA.
- Abstract(参考訳): スケルトンに基づく行動認識は、人体のコンパクトな骨格構造のため、かなりの注目を集めている。
近年,グラフ畳み込みネットワーク (gcns) と畳み込みニューラルネットワーク (cnns) を用いて,空間的特徴と時間的特徴をそれぞれ抽出する手法が注目されている。
ヒト骨格の空間的および時間的依存関係は調査されているが、時空間依存性はまれである。
本稿では,人間の骨格の時空間依存性を効果的に活用するためのフレーム間曲線ネットワーク(IFC-Net)を提案する。
提案するネットワークは2つの新しい要素からなる。
1) フレーム間曲線(IFC)モジュール,及び
2)拡張グラフ畳み込み(d-gc)。
IFCモジュールは、隣接する各フレーム間の有意なノード接続を特定し、同定されたノード接続に基づいて時空間曲線を生成することにより、時空間受容場を増加させる。
D-GCにより、ネットワークは空間領域に特に焦点をあてる大きな空間受容場を持つことができる。
D-GCの核はグラフの与えられた隣接行列から計算され、拡張されたCNNと似た形で大きな受容場を反映する。
我々のIFC-Netはこれらの2つのモジュールを組み合わせて,NTU-RGB+D 60,NTU-RGB+D 120,Northwestern-UCLAの3つのスケルトンベースの動作認識ベンチマークで最先端のパフォーマンスを実現している。
関連論文リスト
- Multi-Scale Spatial-Temporal Self-Attention Graph Convolutional Networks for Skeleton-based Action Recognition [0.0]
本稿では,マルチスケール空間時間自己注意(MSST)-GCNという自己注意型GCNハイブリッドモデルを提案する。
適応トポロジを持つ空間自己保持モジュールを用いて、異なる身体部分間のフレーム内相互作用を理解するとともに、時間的自己保持モジュールを用いてノードのフレーム間の相関関係を調べる。
論文 参考訳(メタデータ) (2024-04-03T10:25:45Z) - Mending of Spatio-Temporal Dependencies in Block Adjacency Matrix [3.529869282529924]
本稿では,時間的依存を考慮に入れた新たなエンドツーエンド学習アーキテクチャを提案する。
提案手法は,SurgVisDomやC2D2などのベンチマークデータセット上での優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-04T06:42:33Z) - DG-STGCN: Dynamic Spatial-Temporal Modeling for Skeleton-based Action
Recognition [77.87404524458809]
骨格に基づく行動認識のための新しいフレームワーク,すなわち動的グループ時空間GCN(DG-STGCN)を提案する。
DG-GCNとDG-TCNの2つのモジュールで構成される。
DG-STGCNは最先端の手法よりも一貫して優れており、しばしば顕著な差がある。
論文 参考訳(メタデータ) (2022-10-12T03:17:37Z) - Multi-Scale Spatial Temporal Graph Convolutional Network for
Skeleton-Based Action Recognition [13.15374205970988]
本稿では,マルチスケール空間グラフ畳み込み (MS-GC) モジュールとマルチスケール時間グラフ畳み込み (MT-GC) モジュールを提案する。
MS-GCおよびMT-GCモジュールは対応する局所グラフ畳み込みをサブグラフ畳み込みの集合に分解し、階層的残差アーキテクチャを形成する。
本稿では,マルチスケールな時空間グラフ畳み込みネットワーク(MST-GCN)を提案する。
論文 参考訳(メタデータ) (2022-06-27T03:17:33Z) - Skeleton-based Action Recognition via Temporal-Channel Aggregation [5.620303498964992]
空間的・時間的トポロジを学習するために,TCA-CN(Temporal-Channel Aggregation Graph Conal Networks)を提案する。
さらに,マルチスケールの骨格時間モデリングを抽出し,注意機構を備えた事前骨格知識と融合する。
論文 参考訳(メタデータ) (2022-05-31T16:28:30Z) - Spatio-Temporal Joint Graph Convolutional Networks for Traffic
Forecasting [75.10017445699532]
近年、時間グラフモデリング問題として交通予測の定式化に焦点が移っている。
本稿では,道路網における交通予測の精度向上のための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-25T08:45:14Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Temporal Graph Modeling for Skeleton-based Action Recognition [25.788239844759246]
複雑な時間的ダイナミクスを捉えるための時間拡張グラフ畳み込みネットワーク(TE-GCN)を提案する。
構築された時間関係グラフは、意味的に関連する時間的特徴間の接続を明示的に構築する。
2つの大規模データセットで実験を行う。
論文 参考訳(メタデータ) (2020-12-16T09:02:47Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - On the spatial attention in Spatio-Temporal Graph Convolutional Networks
for skeleton-based human action recognition [97.14064057840089]
カルチャーネットワーク(GCN)は、スケルトンをグラフとしてモデル化することで、スケルトンに基づく人間の行動認識の性能を約束する。
最近提案されたG時間に基づく手法のほとんどは、ネットワークの各層におけるグラフ構造を学習することで、性能を向上させる。
論文 参考訳(メタデータ) (2020-11-07T19:03:04Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。