論文の概要: Detector-Free Weakly Supervised Group Activity Recognition
- arxiv url: http://arxiv.org/abs/2204.02139v1
- Date: Tue, 5 Apr 2022 12:05:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 13:31:17.114578
- Title: Detector-Free Weakly Supervised Group Activity Recognition
- Title(参考訳): 検出器なし弱監視グループアクティビティ認識
- Authors: Dongkeun Kim, Jinsung Lee, Minsu Cho, Suha Kwak
- Abstract要約: グループアクティビティ認識(グループアクティビティ認識)とは、ビデオの中で、グループ全体で行われるアクティビティを理解するタスクである。
本稿では,ボックスラベルにもオブジェクト検出にも依存しない,グループ活動認識のための新しいモデルを提案する。
トランスフォーマーに基づくモデルでは,アテンション機構を利用してグループアクティビティの部分的コンテキストをローカライズし,エンコードする。
- 参考スコア(独自算出の注目度): 41.344689949264335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group activity recognition is the task of understanding the activity
conducted by a group of people as a whole in a multi-person video. Existing
models for this task are often impractical in that they demand ground-truth
bounding box labels of actors even in testing or rely on off-the-shelf object
detectors. Motivated by this, we propose a novel model for group activity
recognition that depends neither on bounding box labels nor on object detector.
Our model based on Transformer localizes and encodes partial contexts of a
group activity by leveraging the attention mechanism, and represents a video
clip as a set of partial context embeddings. The embedding vectors are then
aggregated to form a single group representation that reflects the entire
context of an activity while capturing temporal evolution of each partial
context. Our method achieves outstanding performance on two benchmarks,
Volleyball and NBA datasets, surpassing not only the state of the art trained
with the same level of supervision, but also some of existing models relying on
stronger supervision.
- Abstract(参考訳): グループ活動認識は、複数の人のビデオの中で、グループ全体として行われる活動を理解するタスクである。
このタスクの既存のモデルは、テスト中や市販のオブジェクト検出器に依存する場合でも、アクターの基底境界ボックスラベルを要求するという点で、しばしば非現実的です。
そこで本研究では,境界ボックスラベルや物体検出器に依存しないグループアクティビティ認識モデルを提案する。
本モデルでは,注意機構を利用してグループ活動の部分的コンテキストを局所化し符号化し,ビデオクリップを部分的コンテキスト埋め込みの集合として表現する。
埋め込みベクトルは、各部分的コンテキストの時間的進化を捉えながら、アクティビティのコンテキスト全体を反映する単一のグループ表現を形成するように集約される。
この手法は,Volleyball と NBA の2つのベンチマークにおいて,同じレベルの監督で訓練された技術だけでなく,より強力な監督に依存した既存モデルにも勝る,優れた性能を実現している。
関連論文リスト
- Group Activity Recognition using Unreliable Tracked Pose [8.592249538742527]
ビデオにおけるグループ活動認識は、ビデオ内のすべての個人の行動を認識するモデルが必要であるため、複雑なタスクである。
我々は、Rendered Pose based Group Activity Recognition System (RePGARS)と呼ばれる革新的な深層学習に基づくグループアクティビティ認識手法を導入する。
論文 参考訳(メタデータ) (2024-01-06T17:36:13Z) - Query by Activity Video in the Wild [52.42177539947216]
現在のクェリ・バイ・アクティビティ・ビデオの文献では、埋め込みを学ぶ際に、すべてのアクティビティが十分なラベル付き例を持っているという仮定が一般的である。
本稿では,アクティビティ検索における不均衡なシナリオを明示的に扱う視覚意味埋め込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-11-23T10:26:36Z) - Actor-agnostic Multi-label Action Recognition with Multi-modal Query [42.38571663534819]
既存の行動認識法は通常アクター固有のものである。
これはアクター固有のポーズ推定(例えば人間対動物)を必要とする。
我々は「アクター非依存型マルチモーダルマルチラベル動作認識」という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-20T10:53:12Z) - Self-supervised Pretraining with Classification Labels for Temporal
Activity Detection [54.366236719520565]
時間的アクティビティ検出は、1フレーム当たりのアクティビティクラスを予測することを目的としている。
検出に必要なフレームレベルのアノテーションが高価なため、検出データセットの規模は限られている。
本研究では,分類ラベルを利用した自己教師付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-26T18:59:28Z) - Temporal Action Segmentation with High-level Complex Activity Labels [29.17792724210746]
我々は、高レベルなアクティビティラベルのみを入力とするアクションセグメントを学習する。
本稿では,ビデオ中の構成要素を自動検出する新しいアクション発見フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-15T09:50:42Z) - Unsupervised Action Segmentation with Self-supervised Feature Learning
and Co-occurrence Parsing [32.66011849112014]
時間的アクションセグメンテーションは、ビデオの各フレームをアクションラベルで分類するタスクである。
本研究では,ラベル付けされていないビデオのコーパスで動作する自己教師型手法を探索し,ビデオ全体にわたる時間的セグメントのセットを予測する。
我々は,行動の構造に基づくサブアクション間の相関を捉えるだけでなく,そのサブアクションの時間的軌跡を正確かつ一般的な方法で推定する,新しい共起動作解析アルゴリズムであるCAPを開発した。
論文 参考訳(メタデータ) (2021-05-29T00:29:40Z) - Learning Group Activities from Skeletons without Individual Action
Labels [32.60526967706986]
我々は,骨格データのみを用いて,グループ活動ラベルのみをシーケンスレベルで使用して,最先端の最先端システムを訓練できることを示す。
実験の結果,個別の行動監督なしに訓練したモデルの性能は低かった。
慎重に設計されたリーンポーズのみのアーキテクチャは、自己監督型であっても、より複雑なマルチモーダルアプローチに比べて高い競合性を示している。
論文 参考訳(メタデータ) (2021-05-14T10:31:32Z) - MIST: Multiple Instance Self-Training Framework for Video Anomaly
Detection [76.80153360498797]
タスク固有の識別表現を効率的に洗練するためのマルチインスタンス自己学習フレームワーク(MIST)を開発した。
mistは1)スパース連続サンプリング戦略を適用し,より信頼性の高いクリップレベル擬似ラベルを生成するマルチインスタンス擬似ラベル生成器,2)自己誘導型注意強調特徴エンコーダで構成される。
本手法は,上海技術におけるフレームレベルのAUC 94.83%の取得において,既存の教師付きおよび弱教師付き手法と同等あるいはそれ以上に機能する。
論文 参考訳(メタデータ) (2021-04-04T15:47:14Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z) - FineGym: A Hierarchical Video Dataset for Fine-grained Action
Understanding [118.32912239230272]
FineGymは体操ビデオの上に構築された新しいアクション認識データセットだ。
アクションレベルとサブアクションレベルの両方で3レベルのセマンティック階層を持つテンポラリアノテーションを提供する。
この新たな粒度レベルは、行動認識に重大な課題をもたらす。
論文 参考訳(メタデータ) (2020-04-14T17:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。