論文の概要: SkateFormer: Skeletal-Temporal Transformer for Human Action Recognition
- arxiv url: http://arxiv.org/abs/2403.09508v2
- Date: Thu, 4 Jul 2024 08:12:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 23:33:46.540526
- Title: SkateFormer: Skeletal-Temporal Transformer for Human Action Recognition
- Title(参考訳): SkateFormer:人間の行動認識のための骨格時間変換器
- Authors: Jeonghyeok Do, Munchurl Kim,
- Abstract要約: 我々はSkateFormer(SkateFormer)と呼ばれる新しい手法を提案する。
SkateFormerは、さまざまなタイプの骨格と時間の関係に基づいて関節とフレームを分割する。
アクション適応的な方法で、アクション認識に不可欠なキージョイントやフレームに選択的にフォーカスすることができる。
- 参考スコア(独自算出の注目度): 25.341177384559174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skeleton-based action recognition, which classifies human actions based on the coordinates of joints and their connectivity within skeleton data, is widely utilized in various scenarios. While Graph Convolutional Networks (GCNs) have been proposed for skeleton data represented as graphs, they suffer from limited receptive fields constrained by joint connectivity. To address this limitation, recent advancements have introduced transformer-based methods. However, capturing correlations between all joints in all frames requires substantial memory resources. To alleviate this, we propose a novel approach called Skeletal-Temporal Transformer (SkateFormer) that partitions joints and frames based on different types of skeletal-temporal relation (Skate-Type) and performs skeletal-temporal self-attention (Skate-MSA) within each partition. We categorize the key skeletal-temporal relations for action recognition into a total of four distinct types. These types combine (i) two skeletal relation types based on physically neighboring and distant joints, and (ii) two temporal relation types based on neighboring and distant frames. Through this partition-specific attention strategy, our SkateFormer can selectively focus on key joints and frames crucial for action recognition in an action-adaptive manner with efficient computation. Extensive experiments on various benchmark datasets validate that our SkateFormer outperforms recent state-of-the-art methods.
- Abstract(参考訳): スケルトンに基づく行動認識は関節の座標と骨格データ内の接続性に基づいて人間の行動を分類し、様々なシナリオで広く利用されている。
グラフ畳み込みネットワーク(GCN)は、グラフとして表される骨格データに対して提案されているが、それらは結合接続によって制限される限られた受容領域に悩まされている。
この制限に対処するため、最近の進歩はトランスフォーマーベースの手法を導入している。
しかし、すべてのフレームで全てのジョイント間の相関を捉えるには、かなりのメモリリソースが必要である。
そこで本稿では,骨格・時間的関係(Skate-Type)の異なるタイプの骨格・時間的関係(Skate-MSA)に基づいて関節とフレームを分割し,各分割内で骨格・時間的自己意識(Skate-MSA)を行う,SkateFormer(SkateFormer)と呼ばれる新しいアプローチを提案する。
本研究は,行動認識のための重要な骨格・時間的関係を4つの異なるタイプに分類する。
これらの種類が組み合わさる
一 物理的に隣人及び遠方の関節に基づく二種類の骨格関係の種類及び
(ii)隣接するフレームと遠方のフレームに基づく2つの時間的関係型。
この分割特異的アテンション戦略により、SkateFormerはアクション認識に不可欠なキージョイントとフレームを、効率的な計算で選択的にフォーカスすることができる。
さまざまなベンチマークデータセットに対する大規模な実験により、SkateFormerは最近の最先端の手法よりも優れていることが確認された。
関連論文リスト
- SkeleTR: Towrads Skeleton-based Action Recognition in the Wild [86.03082891242698]
SkeleTRは骨格に基づく行動認識のための新しいフレームワークである。
まず、グラフ畳み込みによる各骨格配列の人体内骨格力学をモデル化する。
次に、スタック化されたTransformerエンコーダを使用して、一般的なシナリオにおけるアクション認識に重要な人物のインタラクションをキャプチャする。
論文 参考訳(メタデータ) (2023-09-20T16:22:33Z) - One-Shot Action Recognition via Multi-Scale Spatial-Temporal Skeleton
Matching [77.6989219290789]
ワンショットスケルトン行動認識は、単一のトレーニングサンプルでスケルトン行動認識モデルを学ぶことを目的としている。
本稿では,マルチスケールな時空間特徴マッチングによる骨格行動認識を行う新しい一発骨格行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-07-14T11:52:10Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Spatio-Temporal Tuples Transformer for Skeleton-Based Action Recognition [8.905895607185135]
変圧器は重要な関節の相関をモデル化する大きな可能性を示す。
既存のTransformerベースの手法では、フレーム間の異なる関節の相関を捉えることはできない。
連続するフレームにおける異なる関節の関係を捉えるために,時間認識モジュールを提案する。
論文 参考訳(メタデータ) (2022-01-08T16:03:01Z) - JOLO-GCN: Mining Joint-Centered Light-Weight Information for
Skeleton-Based Action Recognition [47.47099206295254]
本稿では,2ストリームグラフ畳み込みネットワークにおいて,人間のポーズスケルトンと共同中心の軽量情報を活用するための新しいフレームワークを提案する。
純粋なスケルトンベースのベースラインと比較して、このハイブリッドスキームは、計算とメモリのオーバーヘッドを低く保ちながら、性能を効果的に向上させる。
論文 参考訳(メタデータ) (2020-11-16T08:39:22Z) - Gesture Recognition from Skeleton Data for Intuitive Human-Machine
Interaction [0.6875312133832077]
本稿では,手工芸品の集合に基づく動的ジェスチャーのセグメント化と分類のためのアプローチを提案する。
ジェスチャー認識方法はスライディングウィンドウを適用し、空間次元と時間次元の両方から情報を抽出する。
最終的に、認識されたジェスチャーは、協調ロボットと対話するために使用される。
論文 参考訳(メタデータ) (2020-08-26T11:28:50Z) - Skeleton-Aware Networks for Deep Motion Retargeting [83.65593033474384]
骨格間のデータ駆動動作のための新しいディープラーニングフレームワークを提案する。
我々の手法は、トレーニングセットの運動間の明確なペアリングを必要とせずに、再ターゲティングの仕方を学ぶ。
論文 参考訳(メタデータ) (2020-05-12T12:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。