論文の概要: Spatial Temporal Graph Attention Network for Skeleton-Based Action
Recognition
- arxiv url: http://arxiv.org/abs/2208.08599v1
- Date: Thu, 18 Aug 2022 02:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-19 13:33:18.655182
- Title: Spatial Temporal Graph Attention Network for Skeleton-Based Action
Recognition
- Title(参考訳): 骨格に基づく行動認識のための空間時間グラフ注意ネットワーク
- Authors: Lianyu Hu, Shenglan Liu, Wei Feng
- Abstract要約: 骨格に基づく行動認識の現在の手法では、主に長期の時間的依存関係のキャプチャを検討するのが一般的である。
本稿では,時空情報の流れをモデル化する汎用フレームワークSTGATを提案する。
STGATは3つの大規模データセット上で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 10.60209288486904
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: It's common for current methods in skeleton-based action recognition to
mainly consider capturing long-term temporal dependencies as skeleton sequences
are typically long (>128 frames), which forms a challenging problem for
previous approaches. In such conditions, short-term dependencies are few
formally considered, which are critical for classifying similar actions. Most
current approaches are consisted of interleaving spatial-only modules and
temporal-only modules, where direct information flow among joints in adjacent
frames are hindered, thus inferior to capture short-term motion and distinguish
similar action pairs. To handle this limitation, we propose a general
framework, coined as STGAT, to model cross-spacetime information flow. It
equips the spatial-only modules with spatial-temporal modeling for regional
perception. While STGAT is theoretically effective for spatial-temporal
modeling, we propose three simple modules to reduce local spatial-temporal
feature redundancy and further release the potential of STGAT, which (1) narrow
the scope of self-attention mechanism, (2) dynamically weight joints along
temporal dimension, and (3) separate subtle motion from static features,
respectively. As a robust feature extractor, STGAT generalizes better upon
classifying similar actions than previous methods, witnessed by both
qualitative and quantitative results. STGAT achieves state-of-the-art
performance on three large-scale datasets: NTU RGB+D 60, NTU RGB+D 120, and
Kinetics Skeleton 400. Code is released.
- Abstract(参考訳): 骨格に基づく行動認識の現在の手法では、スケルトン配列が典型的には長い(>128フレーム)ため、主に長期の時間的依存関係のキャプチャを検討するのが一般的である。
このような条件下では、短期的な依存関係はほとんど考慮されておらず、同様の行動の分類に不可欠である。
現在のほとんどのアプローチは、空間のみのモジュールと時間のみのモジュールをインターリービングすることで構成されており、隣り合うフレームの関節間の直接的な情報の流れが妨げられ、短期的な動きを捉え、類似のアクションペアを区別するのに劣る。
この制限に対処するため、時空情報の流れをモデル化するための一般的なフレームワークSTGATを提案する。
空間のみのモジュールに、地域知覚のための時空間モデリングを装備する。
理論上,STGATは空間的時間的モデリングに有効であるが,局所的時間的特徴冗長性を低減し,(1)自己保持機構の範囲を狭め,(2)時間的次元に沿った動的重み付き関節,(3)静的特徴から微妙な動きを分離するSTGATのポテンシャルを解放する3つの単純なモジュールを提案する。
頑健な特徴抽出器として、STGATは、定性的かつ定量的な結果によって観察される従来の方法よりも、類似した行動を分類する方が優れている。
STGATは、NTU RGB+D 60、NTU RGB+D 120、Kineetics Skeleton 400の3つの大規模データセットで最先端のパフォーマンスを達成する。
コードはリリースされます。
関連論文リスト
- Dynamic Spatial-Temporal Aggregation for Skeleton-Aware Sign Language Recognition [10.048809585477555]
スケルトン対応手話認識は, 背景情報の影響を受けないままでいられるため, 人気が高まっている。
現在の手法では、空間グラフモジュールと時空間モジュールを使用して、それぞれ空間的特徴と時空間的特徴をキャプチャする。
本稿では,入力に敏感な連接関係を構築する2つの同時分岐からなる空間構造を提案する。
そこで我々は,複雑な人間のダイナミクスを捉えるために,マルチスケールの時間情報をモデル化する新しい時間モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-19T07:42:57Z) - A Decoupled Spatio-Temporal Framework for Skeleton-based Action
Segmentation [89.86345494602642]
既存の手法は、弱い時間的モデリング能力に制限されている。
この問題に対処するために、Decoupled Scoupled Framework (DeST)を提案する。
DeSTは計算量が少なく、現在の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-10T09:11:39Z) - Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。
従来の手法は手作りの機能と機械学習技術に依存している。
HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T12:04:28Z) - Multi-Scale Spatial Temporal Graph Convolutional Network for
Skeleton-Based Action Recognition [13.15374205970988]
本稿では,マルチスケール空間グラフ畳み込み (MS-GC) モジュールとマルチスケール時間グラフ畳み込み (MT-GC) モジュールを提案する。
MS-GCおよびMT-GCモジュールは対応する局所グラフ畳み込みをサブグラフ畳み込みの集合に分解し、階層的残差アーキテクチャを形成する。
本稿では,マルチスケールな時空間グラフ畳み込みネットワーク(MST-GCN)を提案する。
論文 参考訳(メタデータ) (2022-06-27T03:17:33Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based
Motion Recognition [62.46544616232238]
従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。
本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
論文 参考訳(メタデータ) (2021-12-16T18:59:47Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。