論文の概要: Focal and Global Spatial-Temporal Transformer for Skeleton-based Action
Recognition
- arxiv url: http://arxiv.org/abs/2210.02693v1
- Date: Thu, 6 Oct 2022 05:57:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 16:44:55.474680
- Title: Focal and Global Spatial-Temporal Transformer for Skeleton-based Action
Recognition
- Title(参考訳): 骨格に基づく行動認識のための音声・グローバル空間時間変換器
- Authors: Zhimin Gao, Peitao Wang, Pei Lv, Xiaoheng Jiang, Qidong Liu, Pichao
Wang, Mingliang Xu and Wanqing Li
- Abstract要約: 我々はFG-STFormer(Focal and Global Space-Temporal Transformer Network)を提案する。
1)FG-SFormer:焦点継手と大域部分結合空間変換器の2つのキーコンポーネントを備える。
拡張側頭骨畳み込みは、大域的自己保持機構に統合され、関節または身体部分の局所的側頭骨運動パターンを明示的に捉える。
- 参考スコア(独自算出の注目度): 34.38874828210301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite great progress achieved by transformer in various vision tasks, it is
still underexplored for skeleton-based action recognition with only a few
attempts. Besides, these methods directly calculate the pair-wise global
self-attention equally for all the joints in both the spatial and temporal
dimensions, undervaluing the effect of discriminative local joints and the
short-range temporal dynamics. In this work, we propose a novel Focal and
Global Spatial-Temporal Transformer network (FG-STFormer), that is equipped
with two key components: (1) FG-SFormer: focal joints and global parts coupling
spatial transformer. It forces the network to focus on modelling correlations
for both the learned discriminative spatial joints and human body parts
respectively. The selective focal joints eliminate the negative effect of
non-informative ones during accumulating the correlations. Meanwhile, the
interactions between the focal joints and body parts are incorporated to
enhance the spatial dependencies via mutual cross-attention. (2) FG-TFormer:
focal and global temporal transformer. Dilated temporal convolution is
integrated into the global self-attention mechanism to explicitly capture the
local temporal motion patterns of joints or body parts, which is found to be
vital important to make temporal transformer work. Extensive experimental
results on three benchmarks, namely NTU-60, NTU-120 and NW-UCLA, show our
FG-STFormer surpasses all existing transformer-based methods, and compares
favourably with state-of-the art GCN-based methods.
- Abstract(参考訳): 様々な視覚タスクでトランスフォーマーが大きな進歩を遂げたものの、スケルトンベースの動作認識では、わずか数回の試行で未熟である。
さらに、これらの手法は、空間次元と時間次元の両方の全ての関節に対する対のグローバルな自己アテンションを直接計算し、識別的局所関節と短距離時間ダイナミクスの影響を過小評価する。
本研究では,(1)fg-sformer: focal joints と global parts coupling spatial transformer の2つの主成分を具備した,新しいfg-stformer (fg-stformer) を提案する。
ネットワークは、学習された空間的関節と人体部分の両方のモデリング相関に焦点を合わせなければならない。
選択的焦点関節は、相関を蓄積する際の非情報的効果を除去する。
一方、焦点関節と体部との相互作用は相互に交叉することで空間依存性を高めるために組み込まれている。
2)FG-TFormer:焦点と大域の時間変換器。
拡張した時間的畳み込みはグローバルな自己保持機構に統合され、時間的トランスフォーマーを機能させる上で重要な、関節または身体部分の局所的な時間的動きパターンを明示的に捉える。
NTU-60, NTU-120, NW-UCLAの3つのベンチマークによる大規模な実験結果から, FG-STFormerは既存のトランスフォーマーベースの手法を全て上回り, 最先端のGCNベースの手法と比較した。
関連論文リスト
- Fourier Test-time Adaptation with Multi-level Consistency for Robust
Classification [10.291631977766672]
本稿では,Fourier Test-Time Adaptation (FTTA) と呼ばれる新しい手法を提案する。
FTTAは、予測の自己監督を行うために、ペア入力の信頼性の高い多レベル整合性測定を構築する。
異なる形態と器官を持つ3つの大きな分類データセットで広範囲に検証された。
論文 参考訳(メタデータ) (2023-06-05T02:29:38Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - PhysFormer++: Facial Video-based Physiological Measurement with SlowFast
Temporal Difference Transformer [76.40106756572644]
最近のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙な手がかりのマイニングに重点を置いている。
本稿では,PhysFormerとPhys++++をベースとした2つのエンドツーエンドビデオ変換器を提案する。
4つのベンチマークデータセットで総合的な実験を行い、時間内テストとクロスデータセットテストの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2023-02-07T15:56:03Z) - Global-local Motion Transformer for Unsupervised Skeleton-based Action
Learning [23.051184131833292]
骨格運動系列の教師なし学習のための新しいトランスフォーマーモデルを提案する。
提案モデルでは, 関節の局所力学を学習し, 動き列から大域的文脈を捉える。
論文 参考訳(メタデータ) (2022-07-13T10:18:07Z) - Interaction Transformer for Human Reaction Generation [61.22481606720487]
本稿では,時間的,空間的両方の注意を持つトランスフォーマーネットワークからなる対話型トランスフォーマー(InterFormer)を提案する。
我々の手法は一般的であり、より複雑で長期的な相互作用を生成するのに利用できる。
論文 参考訳(メタデータ) (2022-07-04T19:30:41Z) - Disentangling Spatial-Temporal Functional Brain Networks via
Twin-Transformers [12.137308815848717]
機能的脳ネットワーク(BN)を識別し、特徴付ける方法は、脳組織アーキテクチャのメカニズムに関するシステムレベルの洞察を得るのに不可欠である。
本研究では,空間空間と時間空間の両方において,共通かつ個々の機能的ネットワークを同時に推定する新しいツイン・トランスフォーマーフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-20T04:57:53Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - PhysFormer: Facial Video-based Physiological Measurement with Temporal
Difference Transformer [55.936527926778695]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙なrの手がかりのマイニングに重点を置いている。
本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文 参考訳(メタデータ) (2021-11-23T18:57:11Z) - An Attractor-Guided Neural Networks for Skeleton-Based Human Motion
Prediction [0.4568777157687961]
関節モデリングは人間の動作予測におけるキュリアルな要素である。
我々は、時間的特徴からバランスアトラクション(BA)と呼ばれる媒体を学習し、グローバルな動き特徴を特徴づける。
BAを通して、全ての関節は同期的に関連付けられ、したがって全ての関節のグローバルな調整がよりよく学べる。
論文 参考訳(メタデータ) (2021-05-20T12:51:39Z) - Spatial Temporal Transformer Network for Skeleton-based Action
Recognition [12.117737635879037]
関節間の依存関係をモデル化する新しい空間-時間変換器ネットワーク(ST-TR)を提案する。
ST-TRモデルでは、SSA(Spatial Self-Attention Module)とTSA(temporal Self-Attention Module)を用いてフレーム間の相関をモデル化しています。
両者は2ストリームネットワークで結合され、同じ入力データを用いて最先端モデルより優れている。
論文 参考訳(メタデータ) (2020-12-11T14:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。