論文の概要: SPARTAN: Self-supervised Spatiotemporal Transformers Approach to Group
Activity Recognition
- arxiv url: http://arxiv.org/abs/2303.12149v4
- Date: Mon, 28 Aug 2023 14:13:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 00:25:17.655709
- Title: SPARTAN: Self-supervised Spatiotemporal Transformers Approach to Group
Activity Recognition
- Title(参考訳): SPARTAN:グループ活動認識のための自己監督型時空間変換器アプローチ
- Authors: Naga VS Raviteja Chappa, Pha Nguyen, Alexander H Nelson, Han-Seok Seo,
Xin Li, Page Daniel Dobbs, Khoa Luu
- Abstract要約: 本稿では, グループ活動認識(GAR)に対する, ラベル付きビデオデータを用いた新しい, 単純で効果的な自己監督型時空間変換器(TAN)を提案する。
- 参考スコア(独自算出の注目度): 47.3759947287782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a new, simple, and effective Self-supervised
Spatio-temporal Transformers (SPARTAN) approach to Group Activity Recognition
(GAR) using unlabeled video data. Given a video, we create local and global
Spatio-temporal views with varying spatial patch sizes and frame rates. The
proposed self-supervised objective aims to match the features of these
contrasting views representing the same video to be consistent with the
variations in spatiotemporal domains. To the best of our knowledge, the
proposed mechanism is one of the first works to alleviate the weakly supervised
setting of GAR using the encoders in video transformers. Furthermore, using the
advantage of transformer models, our proposed approach supports long-term
relationship modeling along spatio-temporal dimensions. The proposed SPARTAN
approach performs well on two group activity recognition benchmarks, including
NBA and Volleyball datasets, by surpassing the state-of-the-art results by a
significant margin in terms of MCA and MPCA metrics.
- Abstract(参考訳): 本稿では, グループアクティビティ認識(GAR)に対する非ラベル付きビデオデータを用いたSPARTAN(Self-supervised Spatio-temporal Transformers)アプローチを提案する。
ビデオでは,空間的パッチサイズやフレームレートの異なる局所的・グローバルな時空間ビューを作成している。
提案した自己監督的目的は、時空間領域の変動と一致するように、同じビデオを表すこれらのコントラストビューの特徴を一致させることを目的としている。
我々の知る限り、提案するメカニズムは、ビデオトランスフォーマーのエンコーダを用いて、GARの弱教師付き設定を緩和する最初の研究の1つである。
さらに, 変圧器モデルの利点を生かして, 時空間次元に沿った長期関係モデリングを支援する。
提案手法は, nba と volleyball データセットを含む2つのグループアクティビティ認識ベンチマークにおいて, mca と mpca の指標で有意なマージンで最先端結果を上回り, 良好に機能する。
関連論文リスト
- Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - SoGAR: Self-supervised Spatiotemporal Attention-based Social Group Activity Recognition [45.419756454791674]
本稿では,自己教師型トランスフォーマーを用いた社会グループ活動(SoGAR)の新たなアプローチを提案する。
我々の目的は、対照的な視点から抽出された特徴が、自己時間領域間で一貫していることを保証する。
提案手法は, 3つのグループアクティビティ認識ベンチマークにおいて, 最先端の結果を得た。
論文 参考訳(メタデータ) (2023-04-27T03:41:15Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Temporal Action Proposal Generation with Transformers [25.66256889923748]
本稿では,オリジナルトランスフォーマーを用いた時間的アクション提案生成フレームワークを直感的に提案する。
境界変換器は、長期の時間的依存関係をキャプチャして正確な境界情報を予測する。
The Proposal Transformer learns the rich-proposal relationship for reliable confidence evaluation。
論文 参考訳(メタデータ) (2021-05-25T16:22:12Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Actor-Transformers for Group Activity Recognition [43.60866347282833]
本稿では,ビデオから個人行動やグループ活動を認識することを目的とする。
本稿では,グループ活動認識に関連する情報を学習し,選択的に抽出できるアクター・トランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2020-03-28T07:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。