論文の概要: Pose-Guided Graph Convolutional Networks for Skeleton-Based Action
Recognition
- arxiv url: http://arxiv.org/abs/2210.06192v1
- Date: Mon, 10 Oct 2022 02:08:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 16:06:10.932472
- Title: Pose-Guided Graph Convolutional Networks for Skeleton-Based Action
Recognition
- Title(参考訳): 骨格に基づく行動認識のためのPose-Guided Graph Convolutional Networks
- Authors: Han Chen and Yifan Jiang and Hanseok Ko
- Abstract要約: グラフ畳み込みネットワーク(GCN)は、人体骨格を空間的および時間的グラフとしてモデル化することができる。
本研究では,高性能な人行動認識のためのマルチモーダルフレームワークとして,ポーズ誘導型GCN(PG-GCN)を提案する。
このモジュールの中核となる考え方は、トレーニング可能なグラフを使用して、スケルトンストリームから、ポーズストリームの機能を集約することで、より堅牢な機能表現能力を持つネットワークを実現することだ。
- 参考スコア(独自算出の注目度): 32.07659338674024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph convolutional networks (GCNs), which can model the human body skeletons
as spatial and temporal graphs, have shown remarkable potential in
skeleton-based action recognition. However, in the existing GCN-based methods,
graph-structured representation of the human skeleton makes it difficult to be
fused with other modalities, especially in the early stages. This may limit
their scalability and performance in action recognition tasks. In addition, the
pose information, which naturally contains informative and discriminative clues
for action recognition, is rarely explored together with skeleton data in
existing methods. In this work, we propose pose-guided GCN (PG-GCN), a
multi-modal framework for high-performance human action recognition. In
particular, a multi-stream network is constructed to simultaneously explore the
robust features from both the pose and skeleton data, while a dynamic attention
module is designed for early-stage feature fusion. The core idea of this module
is to utilize a trainable graph to aggregate features from the skeleton stream
with that of the pose stream, which leads to a network with more robust feature
representation ability. Extensive experiments show that the proposed PG-GCN can
achieve state-of-the-art performance on the NTU RGB+D 60 and NTU RGB+D 120
datasets.
- Abstract(参考訳): 人体骨格を空間的および時間的グラフとしてモデル化できるグラフ畳み込みネットワーク(GCN)は、骨格に基づく行動認識において顕著な可能性を示している。
しかし、既存のGCN法では、ヒト骨格のグラフ構造表現は、特に初期において他のモダリティと融合することが困難である。
これにより、アクション認識タスクのスケーラビリティとパフォーマンスが制限される可能性がある。
また,行動認識のための情報的および識別的手がかりを自然に含むポーズ情報は,既存の手法ではスケルトンデータとともに探索されることは稀である。
本研究では,高性能な人行動認識のためのマルチモーダルフレームワークであるProto-Guided GCN (PG-GCN)を提案する。
特にマルチストリームネットワークはポーズデータとスケルトンデータの両方からロバストな機能を探索するために構築され、動的アテンションモジュールは早期の機能融合のために設計されている。
このモジュールの中核となる考え方は、トレーニング可能なグラフを使用して、スケルトンストリームからポースストリームの機能を集約することで、より堅牢な機能表現能力を備えたネットワークを実現することだ。
大規模実験により,提案したPG-GCNはNTU RGB+D 60およびNTU RGB+D 120データセット上で最先端の性能を実現することができた。
関連論文リスト
- SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - HAN: An Efficient Hierarchical Self-Attention Network for Skeleton-Based
Gesture Recognition [73.64451471862613]
骨格に基づくジェスチャー認識のための効率的な階層型自己認識ネットワーク(HAN)を提案する。
ジョイント・セルフアテンション・モジュールは指の空間的特徴を捉え、指の自己アテンション・モジュールは手全体の特徴を集約するように設計されている。
実験の結果,3つのジェスチャ認識データセットに対して,計算複雑性がはるかに低い競合的な結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-06-25T02:15:53Z) - Multi Scale Temporal Graph Networks For Skeleton-based Action
Recognition [5.970574258839858]
グラフ畳み込みネットワーク(GCN)は、関連するノードの特徴を効果的に捉え、モデルの性能を向上させる。
まず、時間的特徴と空間的特徴の整合性を無視し、特徴をノード単位とフレーム単位で抽出する。
本稿では,行動認識のための時間グラフネットワーク(TGN)と呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-05T08:08:25Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - Structure-Aware Human-Action Generation [126.05874420893092]
グラフ畳み込みネットワーク(GCN)は構造情報を利用して構造表現を学習する有望な方法である。
本稿では, 時間空間における完全な行動グラフを適応的にスパース化するために, 強力な自己認識機構を活用するためのGCNの変種を提案する。
提案手法は,重要な過去のフレームに動的に対応し,GCNフレームワークに適用するためのスパースグラフを構築し,その構造情報をアクションシーケンスで適切にキャプチャする。
論文 参考訳(メタデータ) (2020-07-04T00:18:27Z) - Unifying Graph Embedding Features with Graph Convolutional Networks for
Skeleton-based Action Recognition [18.001693718043292]
本稿では,人行動認識のためのグラフ畳み込みネットワークに15のグラフ埋め込み機能を組み込んだ新しいフレームワークを提案する。
我々のモデルは,NTU-RGB+D,Kineetics,SYSU-3Dという3つの大規模データセットで検証されている。
論文 参考訳(メタデータ) (2020-03-06T02:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。