論文の概要: Skeleton-based Action Recognition via Spatial and Temporal Transformer
Networks
- arxiv url: http://arxiv.org/abs/2008.07404v4
- Date: Tue, 22 Jun 2021 15:29:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 04:11:14.120074
- Title: Skeleton-based Action Recognition via Spatial and Temporal Transformer
Networks
- Title(参考訳): 空間および時間変換器ネットワークによる骨格に基づく行動認識
- Authors: Chiara Plizzari, Marco Cannici, Matteo Matteucci
- Abstract要約: 本研究では,トランスフォーマーの自己アテンション演算子を用いて,関節間の依存関係をモデル化する空間-テンポラルトランスフォーマーネットワークを提案する。
提案したST-TRは,関節座標を入力として使用する場合のすべてのデータセットの最先端性能を達成し,骨情報を追加する場合の最先端特性と一致させる。
- 参考スコア(独自算出の注目度): 12.06555892772049
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Skeleton-based Human Activity Recognition has achieved great interest in
recent years as skeleton data has demonstrated being robust to illumination
changes, body scales, dynamic camera views, and complex background. In
particular, Spatial-Temporal Graph Convolutional Networks (ST-GCN) demonstrated
to be effective in learning both spatial and temporal dependencies on
non-Euclidean data such as skeleton graphs. Nevertheless, an effective encoding
of the latent information underlying the 3D skeleton is still an open problem,
especially when it comes to extracting effective information from joint motion
patterns and their correlations. In this work, we propose a novel
Spatial-Temporal Transformer network (ST-TR) which models dependencies between
joints using the Transformer self-attention operator. In our ST-TR model, a
Spatial Self-Attention module (SSA) is used to understand intra-frame
interactions between different body parts, and a Temporal Self-Attention module
(TSA) to model inter-frame correlations. The two are combined in a two-stream
network, whose performance is evaluated on three large-scale datasets,
NTU-RGB+D 60, NTU-RGB+D 120, and Kinetics Skeleton 400, consistently improving
backbone results. Compared with methods that use the same input data, the
proposed ST-TR achieves state-of-the-art performance on all datasets when using
joints' coordinates as input, and results on-par with state-of-the-art when
adding bones information.
- Abstract(参考訳): スケルトンベースの人間の活動認識は近年、照明の変化、ボディスケール、ダイナミックカメラビュー、複雑な背景に頑健であることが示されているため、大きな関心を集めている。
特に、時空間グラフ畳み込みネットワーク(ST-GCN)は、骨格グラフのような非ユークリッドデータに対する空間的および時間的依存の学習に有効であることを示した。
それにもかかわらず、3d骨格の基礎となる潜在情報の効果的なエンコーディングは、特に関節運動パターンとその相関から効果的な情報を抽出する場合、まだ未解決の問題である。
本研究では,Transformer self-attention operatorを用いて関節間の依存関係をモデル化する新しいSpatial-Temporal Transformer Network (ST-TR)を提案する。
st-trモデルでは,異なる身体部位間のフレーム内相互作用を理解するために空間的自己付着モジュール (ssa) と,フレーム間相関をモデル化する時間的自己接触モジュール (tsa) が用いられる。
NTU-RGB+D 60, NTU-RGB+D 120, Kinetics Skeleton 400の3つの大規模データセットでパフォーマンスを評価した2ストリームネットワークが組み合わされている。
提案したST-TRは,同じ入力データを使用する手法と比較して,関節座標を入力として使用する場合のすべてのデータセットの最先端性能を達成し,骨情報を追加する場合の最先端特性と一致させる。
関連論文リスト
- Multi-Scale Spatial-Temporal Self-Attention Graph Convolutional Networks for Skeleton-based Action Recognition [0.0]
本稿では,マルチスケール空間時間自己注意(MSST)-GCNという自己注意型GCNハイブリッドモデルを提案する。
適応トポロジを持つ空間自己保持モジュールを用いて、異なる身体部分間のフレーム内相互作用を理解するとともに、時間的自己保持モジュールを用いてノードのフレーム間の相関関係を調べる。
論文 参考訳(メタデータ) (2024-04-03T10:25:45Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Dynamic Hypergraph Convolutional Networks for Skeleton-Based Action
Recognition [22.188135882864287]
骨格に基づく行動認識のための動的ハイパーグラフ畳み込みネットワーク(DHGCN)を提案する。
DHGCNはハイパーグラフを使用して骨格構造を表現し、ヒト関節に含まれる運動情報を効果的に活用する。
論文 参考訳(メタデータ) (2021-12-20T14:46:14Z) - Multi-Scale Semantics-Guided Neural Networks for Efficient
Skeleton-Based Human Action Recognition [140.18376685167857]
スケルトンに基づく行動認識には,単純なマルチスケールセマンティクス誘導ニューラルネットワークが提案されている。
MS-SGNは、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-07T03:50:50Z) - IIP-Transformer: Intra-Inter-Part Transformer for Skeleton-Based Action
Recognition [0.5953569982292298]
骨格型行動認識タスクのための新しいトランスフォーマーベースネットワーク(IIP-Transformer)を提案する。
個々の関節間の相互作用を利用する代わりに、IIP-Transformerは体の関節と部分の相互作用を同時に組み込む。
提案した IIP-Transformer は,DSTA-Net よりも8倍以上の計算量で最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-10-26T03:24:22Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Spatial Temporal Transformer Network for Skeleton-based Action
Recognition [12.117737635879037]
関節間の依存関係をモデル化する新しい空間-時間変換器ネットワーク(ST-TR)を提案する。
ST-TRモデルでは、SSA(Spatial Self-Attention Module)とTSA(temporal Self-Attention Module)を用いてフレーム間の相関をモデル化しています。
両者は2ストリームネットワークで結合され、同じ入力データを用いて最先端モデルより優れている。
論文 参考訳(メタデータ) (2020-12-11T14:58:21Z) - Decoupled Spatial-Temporal Attention Network for Skeleton-Based Action
Recognition [46.836815779215456]
本稿では,骨格に基づく行動認識のための空間的注意ネットワーク(DSTA-Net)を提案する。
注意ブロックの構築には,空間的時間的注意分離,非結合位置符号化,空間的大域正規化という3つの手法が提案されている。
提案手法の有効性を検証するため,骨格に基づくジェスチャーと行動認識のための4つの挑戦的データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2020-07-07T07:58:56Z) - MotioNet: 3D Human Motion Reconstruction from Monocular Video with
Skeleton Consistency [72.82534577726334]
モノクロビデオから3次元人間の骨格の動きを直接再構成するディープニューラルネットワークであるMotioNetを紹介した。
本手法は,動作表現を完全かつ一般的に使用するキネマティックスケルトンを直接出力する最初のデータ駆動型手法である。
論文 参考訳(メタデータ) (2020-06-22T08:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。