論文の概要: STAR-Transformer: A Spatio-temporal Cross Attention Transformer for
Human Action Recognition
- arxiv url: http://arxiv.org/abs/2210.07503v1
- Date: Fri, 14 Oct 2022 04:09:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 15:13:13.822246
- Title: STAR-Transformer: A Spatio-temporal Cross Attention Transformer for
Human Action Recognition
- Title(参考訳): star-transformer:人間の行動認識のための時空間クロスアテンショントランスフォーマ
- Authors: Dasom Ahn, Sangwon Kim, Hyunsu Hong, Byoung Chul Ko
- Abstract要約: 動作認識では性能が向上するが、異なるモデルとクロスモーダルデータの特徴表現のバランスをとる必要がある。
本稿では,STAR-Tempor Al Ross (STAR)変換器を提案する。
提案手法は,従来の最先端手法と比較して,性能が向上することを示す。
- 参考スコア(独自算出の注目度): 2.6381163133447836
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In action recognition, although the combination of spatio-temporal videos and
skeleton features can improve the recognition performance, a separate model and
balancing feature representation for cross-modal data are required. To solve
these problems, we propose Spatio-TemporAl cRoss (STAR)-transformer, which can
effectively represent two cross-modal features as a recognizable vector. First,
from the input video and skeleton sequence, video frames are output as global
grid tokens and skeletons are output as joint map tokens, respectively. These
tokens are then aggregated into multi-class tokens and input into
STAR-transformer. The STAR-transformer encoder layer consists of a full
self-attention (FAttn) module and a proposed zigzag spatio-temporal attention
(ZAttn) module. Similarly, the continuous decoder consists of a FAttn module
and a proposed binary spatio-temporal attention (BAttn) module.
STAR-transformer learns an efficient multi-feature representation of the
spatio-temporal features by properly arranging pairings of the FAttn, ZAttn,
and BAttn modules. Experimental results on the Penn-Action, NTU RGB+D 60, and
120 datasets show that the proposed method achieves a promising improvement in
performance in comparison to previous state-of-the-art methods.
- Abstract(参考訳): 動作認識では,時空間映像とスケルトン特徴の組み合わせにより認識性能が向上するが,クロスモーダルデータの分離モデルとバランシング特徴表現が必要となる。
これらの問題を解決するために,2つのクロスモーダル特徴を認識可能なベクトルとして効果的に表現できるspatio-TemporAl cRoss-transformerを提案する。
まず、入力されたビデオとスケルトンシーケンスから、ビデオフレームをグローバルグリッドトークンとして出力し、スケルトンをジョイントマップトークンとして出力する。
これらのトークンはマルチクラストークンに集約され、star-transformerに入力される。
スタートランスフォーマエンコーダ層はフルセルフアテンション(fattn)モジュールとジグザグ時空間注意(zigzag spatio-temporal attention, zattn)モジュールから構成されている。
同様に、連続デコーダはfatnモジュールと提案されたbinary spatio-temporal attention (battn)モジュールから構成される。
STAR変換器は、FAttn、ZAttn、BAttnモジュールのペアを適切に配置することで、時空間特徴の効率的な多機能表現を学習する。
Penn-Action, NTU RGB+D 60, 120データセットの実験結果から, 提案手法は従来の最先端手法と比較して, 性能が向上することを示す。
関連論文リスト
- Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Enhancing Medical Image Segmentation with TransCeption: A Multi-Scale
Feature Fusion Approach [3.9548535445908928]
CNNベースの手法は、その有望な性能と堅牢性のために、医用画像セグメンテーションの基盤となっている。
グローバルな文脈相関をモデル化するために受信フィールドを拡大するため,トランスフォーマーベースのアプローチが普及している。
本稿では,トランスセグメンテーション(TransCeption for Medical Image segmentation)を提案する。
論文 参考訳(メタデータ) (2023-01-25T22:09:07Z) - Cross-Modal Learning with 3D Deformable Attention for Action Recognition [4.128256616073278]
本稿では,適応的な注意場を持つ行動認識のための新しい3次元変形可能な変換器と時間的学習方式を提案する。
提案した3次元変形可能な変圧器が試験された。
60,.120 FineGYM と PennActionAction のデータセットは、事前訓練された最先端手法よりも良い結果を示した。
論文 参考訳(メタデータ) (2022-12-12T00:31:08Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - TransVOS: Video Object Segmentation with Transformers [13.311777431243296]
本研究では,時間的・空間的関係をフル活用し,モデル化する視覚変換器を提案する。
人気のある2エンコーダパイプラインをスリム化するために,単一の2パス特徴抽出器を設計する。
実験では、DAVISとYouTube-VOSのデータセットにおける最先端の手法よりもTransVOSの方が優れていることを示した。
論文 参考訳(メタデータ) (2021-06-01T15:56:10Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。