論文の概要: SoGAR: Self-supervised Spatiotemporal Attention-based Social Group Activity Recognition
- arxiv url: http://arxiv.org/abs/2305.06310v4
- Date: Mon, 18 Nov 2024 19:03:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:33:57.592911
- Title: SoGAR: Self-supervised Spatiotemporal Attention-based Social Group Activity Recognition
- Title(参考訳): SoGAR:自己監督型時空間注意に基づく社会集団活動認識
- Authors: Naga VS Raviteja Chappa, Pha Nguyen, Alexander H Nelson, Han-Seok Seo, Xin Li, Page Daniel Dobbs, Khoa Luu,
- Abstract要約: 本稿では,自己教師型トランスフォーマーを用いた社会グループ活動(SoGAR)の新たなアプローチを提案する。
我々の目的は、対照的な視点から抽出された特徴が、自己時間領域間で一貫していることを保証する。
提案手法は, 3つのグループアクティビティ認識ベンチマークにおいて, 最先端の結果を得た。
- 参考スコア(独自算出の注目度): 45.419756454791674
- License:
- Abstract: This paper introduces a novel approach to Social Group Activity Recognition (SoGAR) using Self-supervised Transformers network that can effectively utilize unlabeled video data. To extract spatio-temporal information, we created local and global views with varying frame rates. Our self-supervised objective ensures that features extracted from contrasting views of the same video were consistent across spatio-temporal domains. Our proposed approach is efficient in using transformer-based encoders to alleviate the weakly supervised setting of group activity recognition. By leveraging the benefits of transformer models, our approach can model long-term relationships along spatio-temporal dimensions. Our proposed SoGAR method achieved state-of-the-art results on three group activity recognition benchmarks, namely JRDB-PAR, NBA, and Volleyball datasets, surpassing the current numbers in terms of F1-score, MCA, and MPCA metrics.
- Abstract(参考訳): 本稿では,未ラベル映像データを効果的に活用できる自己教師型トランスフォーマーネットワークを用いた社会集団活動認識(SoGAR)への新たなアプローチを提案する。
時空間情報を抽出するために、フレームレートの異なる局所的・グローバルなビューを作成しました。
我々の自己監督的目的は、同じビデオのコントラストビューから抽出された特徴が時空間領域間で一致していることを保証する。
提案手法はトランスフォーマーベースのエンコーダを用いてグループアクティビティ認識の弱教師付き設定を緩和する。
トランスモデルの利点を活用することで,時空間次元に沿って長期的関係をモデル化することができる。
提案手法は,JRDB-PAR,NBA,Volleyballの3つのグループ活動認識ベンチマークにおいて,F1スコア,MCA,MPCAの3指標を上回り,最先端の成果を得た。
関連論文リスト
- Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - DECOMPL: Decompositional Learning with Attention Pooling for Group
Activity Recognition from a Single Volleyball Image [3.6144103736375857]
グループアクティビティ認識(GAR)は、複数のアクターがシーンで実行するアクティビティを検出することを目的としている。
本稿では,バレーボールビデオのための新しいGAR手法であるDECOMPLを提案する。
視覚枝では、アテンションプールを用いた特徴を選択的に抽出する。
座標系ではアクターの現在の構成を考慮し、ボックス座標から空間情報を抽出する。
論文 参考訳(メタデータ) (2023-03-11T16:30:51Z) - SPARTAN: Self-supervised Spatiotemporal Transformers Approach to Group
Activity Recognition [47.3759947287782]
本稿では, グループ活動認識(GAR)に対する, ラベル付きビデオデータを用いた新しい, 単純で効果的な自己監督型時空間変換器(TAN)を提案する。
論文 参考訳(メタデータ) (2023-03-06T16:58:27Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - GroupFormer: Group Activity Recognition with Clustered Spatial-Temporal
Transformer [16.988878921451484]
GroupFormerは、個人とグループ表現を増強するために、空間的・時間的コンテキスト情報を共同でキャプチャする。
提案するフレームワークは,VolleyballデータセットとCollective Activityデータセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2021-08-28T11:24:36Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。