Fugu-MT 論文翻訳(概要): Spatial Temporal Transformer Network for Skeleton-based Action Recognition

論文の概要: Spatial Temporal Transformer Network for Skeleton-based Action Recognition

arxiv url: http://arxiv.org/abs/2012.06399v1
Date: Fri, 11 Dec 2020 14:58:21 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-11 02:59:31.799076
Title: Spatial Temporal Transformer Network for Skeleton-based Action Recognition
Title（参考訳）: 骨格に基づく行動認識のための空間時間変換器ネットワーク
Authors: Chiara Plizzari, Marco Cannici, Matteo Matteucci
Abstract要約: 関節間の依存関係をモデル化する新しい空間-時間変換器ネットワーク(ST-TR)を提案する。 ST-TRモデルでは、SSA(Spatial Self-Attention Module)とTSA(temporal Self-Attention Module)を用いてフレーム間の相関をモデル化しています。両者は2ストリームネットワークで結合され、同じ入力データを用いて最先端モデルより優れている。
参考スコア（独自算出の注目度）: 12.117737635879037
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Skeleton-based human action recognition has achieved a great interest in recent years, as skeleton data has been demonstrated to be robust to illumination changes, body scales, dynamic camera views, and complex background. Nevertheless, an effective encoding of the latent information underlying the 3D skeleton is still an open problem. In this work, we propose a novel Spatial-Temporal Transformer network (ST-TR) which models dependencies between joints using the Transformer self-attention operator. In our ST-TR model, a Spatial Self-Attention module (SSA) is used to understand intra-frame interactions between different body parts, and a Temporal Self-Attention module (TSA) to model inter-frame correlations. The two are combined in a two-stream network which outperforms state-of-the-art models using the same input data on both NTU-RGB+D 60 and NTU-RGB+D 120.
Abstract（参考訳）: スケルトンベースの人間の行動認識は近年大きな関心を集めており、スケルトンデータは照明の変化、ボディスケール、ダイナミックカメラのビュー、複雑な背景に頑健であることが示されている。それでも、3dスケルトンの基礎となる潜在情報の効果的なエンコーディングは、まだ未解決の問題である。本研究では,Transformer self-attention operatorを用いて関節間の依存関係をモデル化する新しいSpatial-Temporal Transformer Network (ST-TR)を提案する。 st-trモデルでは,異なる身体部位間のフレーム内相互作用を理解するために空間的自己付着モジュール (ssa) と,フレーム間相関をモデル化する時間的自己接触モジュール (tsa) が用いられる。両者は、NTU-RGB+D 60とNTU-RGB+D 120の両方で同じ入力データを用いて、最先端モデルを上回る2ストリームネットワークで結合される。

関連論文リスト

A Two-stream Hybrid CNN-Transformer Network for Skeleton-based Human Interaction Recognition [6.490564374810672]
2ストリームハイブリッドCNN-Transformer Network(THCT-Net)を提案する。 CNNの局所的な特異性を活用し、Transformerを通じてグローバルな依存関係をモデル化する。提案手法は, 様々な行動の意味と文脈をよりよく理解し, 推測し, 最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2023-12-31T06:46:46Z)
UniTR: A Unified and Efficient Multi-Modal Transformer for Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。 UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。 UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文参考訳（メタデータ） (2023-08-15T12:13:44Z)
STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-03-31T16:19:27Z)
Global-to-Local Modeling for Video-based 3D Human Pose and Shape Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文参考訳（メタデータ） (2023-03-26T14:57:49Z)
Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。 Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-08-18T03:48:58Z)
Temporal Transformer Networks with Self-Supervision for Action Recognition [13.00827959393591]
自己監督型時変変器ネットワーク(TTSN)について紹介する。 TTSNは時間変圧器モジュールと時間列セルフスーパービジョンモジュールから構成される。提案するTTSNは,動作認識のための最先端性能を達成する上で有望である。
論文参考訳（メタデータ） (2021-12-14T12:53:53Z)
Multi-Scale Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition [140.18376685167857]
スケルトンに基づく行動認識には,単純なマルチスケールセマンティクス誘導ニューラルネットワークが提案されている。 MS-SGNは、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2021-11-07T03:50:50Z)
IIP-Transformer: Intra-Inter-Part Transformer for Skeleton-Based Action Recognition [0.5953569982292298]
骨格型行動認識タスクのための新しいトランスフォーマーベースネットワーク(IIP-Transformer)を提案する。個々の関節間の相互作用を利用する代わりに、IIP-Transformerは体の関節と部分の相互作用を同時に組み込む。提案した IIP-Transformer は,DSTA-Net よりも8倍以上の計算量で最先端の性能を実現する。
論文参考訳（メタデータ） (2021-10-26T03:24:22Z)
Skeleton-based Action Recognition via Spatial and Temporal Transformer Networks [12.06555892772049]
本研究では,トランスフォーマーの自己アテンション演算子を用いて,関節間の依存関係をモデル化する空間-テンポラルトランスフォーマーネットワークを提案する。提案したST-TRは,関節座標を入力として使用する場合のすべてのデータセットの最先端性能を達成し,骨情報を追加する場合の最先端特性と一致させる。
論文参考訳（メタデータ） (2020-08-17T15:25:40Z)
TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。 Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文参考訳（メタデータ） (2020-05-14T08:22:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。