論文の概要: STEP CATFormer: Spatial-Temporal Effective Body-Part Cross Attention
Transformer for Skeleton-based Action Recognition
- arxiv url: http://arxiv.org/abs/2312.03288v1
- Date: Wed, 6 Dec 2023 04:36:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 16:06:16.316317
- Title: STEP CATFormer: Spatial-Temporal Effective Body-Part Cross Attention
Transformer for Skeleton-based Action Recognition
- Title(参考訳): STEP CATFormer:スケルトンに基づく行動認識のための時空間有効ボディ部分クロスアテンショントランス
- Authors: Nguyen Huu Bao Long
- Abstract要約: グラフ畳み込み畳み込みネットワークは、どのように異なるトポロジを学習し、グローバルな時間的および局所的な時間的共同機能を効果的に集約するかに焦点を当てる。
CTR-GCN(Channel-wise Topology Refinement Graph Convolution)に基づく3つのチャネルワイズトロイグラフ畳み込みを提案する。
我々は,NTU RGB+D, NTU RGB+D 120データセット上での高性能な空間時間有効ボディアテンション変換器という,強力なグラフ畳み込みネットワークを開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph convolutional networks (GCNs) have been widely used and achieved
remarkable results in skeleton-based action recognition. We think the key to
skeleton-based action recognition is a skeleton hanging in frames, so we focus
on how the Graph Convolutional Convolution networks learn different topologies
and effectively aggregate joint features in the global temporal and local
temporal. In this work, we propose three Channel-wise Tolopogy Graph
Convolution based on Channel-wise Topology Refinement Graph Convolution
(CTR-GCN). Combining CTR-GCN with two joint cross-attention modules can capture
the upper-lower body part and hand-foot relationship skeleton features. After
that, to capture features of human skeletons changing in frames we design the
Temporal Attention Transformers to extract skeletons effectively. The Temporal
Attention Transformers can learn the temporal features of human skeleton
sequences. Finally, we fuse the temporal features output scale with MLP and
classification. We develop a powerful graph convolutional network named Spatial
Temporal Effective Body-part Cross Attention Transformer which notably
high-performance on the NTU RGB+D, NTU RGB+D 120 datasets. Our code and models
are available at https://github.com/maclong01/STEP-CATFormer
- Abstract(参考訳): グラフ畳み込みネットワーク(GCN)は広く使われ、骨格に基づく行動認識において顕著な成果を上げている。
骨格に基づく行動認識の鍵はフレームにぶら下がっているスケルトンであり、グラフ畳み込み畳み込みネットワークがどのように異なるトポロジを学習し、グローバルな時間的および局所的な時間的共同機能を効果的に集約するかに焦点を当てる。
本研究では,CTR-GCN (Channel-wise Topology Refinement Graph Convolution) に基づく3つのチャネルワイドトロイグラフ畳み込みを提案する。
CTR-GCNと2つの関節横断モジュールを組み合わせることで、上半身部分と手足関係の骨格の特徴を捉えることができる。
その後、フレームで変化する人間の骨格の特徴を捉えるために、時間的注意トランスフォーマーを設計して、効果的に骨格を抽出する。
テンポラルアテンショントランスフォーマーは人間の骨格配列の時間的特徴を学習することができる。
最後に、時間的特徴出力尺度をMLPと分類で融合する。
我々は,NTU RGB+D, NTU RGB+D 120データセット上での高性能な空間時間有効ボディアテンション変換器という,強力なグラフ畳み込みネットワークを開発した。
私たちのコードとモデルはhttps://github.com/maclong01/STEP-CATFormerで利用可能です。
関連論文リスト
- Signal-SGN: A Spiking Graph Convolutional Network for Skeletal Action Recognition via Learning Temporal-Frequency Dynamics [2.9578022754506605]
骨格に基づく行動認識では、グラフ畳み込みネットワーク(GCN)はその複雑さと高エネルギー消費のために制限に直面している。
本稿では、骨格配列の時間次元をスパイキング時間ステップとして活用するSignal-SGN(Spiking Graph Convolutional Network)を提案する。
実験により,提案モデルが既存のSNN法を精度で上回るだけでなく,学習時の計算記憶コストも低減できることがわかった。
論文 参考訳(メタデータ) (2024-08-03T07:47:16Z) - SkeleTR: Towrads Skeleton-based Action Recognition in the Wild [86.03082891242698]
SkeleTRは骨格に基づく行動認識のための新しいフレームワークである。
まず、グラフ畳み込みによる各骨格配列の人体内骨格力学をモデル化する。
次に、スタック化されたTransformerエンコーダを使用して、一般的なシナリオにおけるアクション認識に重要な人物のインタラクションをキャプチャする。
論文 参考訳(メタデータ) (2023-09-20T16:22:33Z) - Pose-Guided Graph Convolutional Networks for Skeleton-Based Action
Recognition [32.07659338674024]
グラフ畳み込みネットワーク(GCN)は、人体骨格を空間的および時間的グラフとしてモデル化することができる。
本研究では,高性能な人行動認識のためのマルチモーダルフレームワークとして,ポーズ誘導型GCN(PG-GCN)を提案する。
このモジュールの中核となる考え方は、トレーニング可能なグラフを使用して、スケルトンストリームから、ポーズストリームの機能を集約することで、より堅牢な機能表現能力を持つネットワークを実現することだ。
論文 参考訳(メタデータ) (2022-10-10T02:08:49Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Action Recognition with Domain Invariant Features of Skeleton Image [25.519217340328442]
そこで本研究では,行動認識のための対人訓練のための新しいCNNベースの手法を提案する。
異なる視角や対象からスケルトン画像の特徴を整列させるために,2段階のドメイン対角学習を導入する。
最先端の手法と比較して、競争力のある結果が得られる。
論文 参考訳(メタデータ) (2021-11-19T08:05:54Z) - HAN: An Efficient Hierarchical Self-Attention Network for Skeleton-Based
Gesture Recognition [73.64451471862613]
骨格に基づくジェスチャー認識のための効率的な階層型自己認識ネットワーク(HAN)を提案する。
ジョイント・セルフアテンション・モジュールは指の空間的特徴を捉え、指の自己アテンション・モジュールは手全体の特徴を集約するように設計されている。
実験の結果,3つのジェスチャ認識データセットに対して,計算複雑性がはるかに低い競合的な結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-06-25T02:15:53Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - Skeleton-based Action Recognition via Spatial and Temporal Transformer
Networks [12.06555892772049]
本研究では,トランスフォーマーの自己アテンション演算子を用いて,関節間の依存関係をモデル化する空間-テンポラルトランスフォーマーネットワークを提案する。
提案したST-TRは,関節座標を入力として使用する場合のすべてのデータセットの最先端性能を達成し,骨情報を追加する場合の最先端特性と一致させる。
論文 参考訳(メタデータ) (2020-08-17T15:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。