論文の概要: DECOMPL: Decompositional Learning with Attention Pooling for Group
Activity Recognition from a Single Volleyball Image
- arxiv url: http://arxiv.org/abs/2303.06439v1
- Date: Sat, 11 Mar 2023 16:30:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 19:01:57.339507
- Title: DECOMPL: Decompositional Learning with Attention Pooling for Group
Activity Recognition from a Single Volleyball Image
- Title(参考訳): DECOMPL:単一バレーボール画像からのグループ活動認識のための注意ポーリングによる分解学習
- Authors: Berker Demirel, Huseyin Ozkan
- Abstract要約: グループアクティビティ認識(GAR)は、複数のアクターがシーンで実行するアクティビティを検出することを目的としている。
本稿では,バレーボールビデオのための新しいGAR手法であるDECOMPLを提案する。
視覚枝では、アテンションプールを用いた特徴を選択的に抽出する。
座標系ではアクターの現在の構成を考慮し、ボックス座標から空間情報を抽出する。
- 参考スコア(独自算出の注目度): 3.6144103736375857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group Activity Recognition (GAR) aims to detect the activity performed by
multiple actors in a scene. Prior works model the spatio-temporal features
based on the RGB, optical flow or keypoint data types. However, using both the
temporality and these data types altogether increase the computational
complexity significantly. Our hypothesis is that by only using the RGB data
without temporality, the performance can be maintained with a negligible loss
in accuracy. To that end, we propose a novel GAR technique for volleyball
videos, DECOMPL, which consists of two complementary branches. In the visual
branch, it extracts the features using attention pooling in a selective way. In
the coordinate branch, it considers the current configuration of the actors and
extracts the spatial information from the box coordinates. Moreover, we
analyzed the Volleyball dataset that the recent literature is mostly based on,
and realized that its labeling scheme degrades the group concept in the
activities to the level of individual actors. We manually reannotated the
dataset in a systematic manner for emphasizing the group concept. Experimental
results on the Volleyball as well as Collective Activity (from another domain,
i.e., not volleyball) datasets demonstrated the effectiveness of the proposed
model DECOMPL, which delivered the best/second best GAR performance with the
reannotations/original annotations among the comparable state-of-the-art
techniques. Our code, results and new annotations will be made available
through GitHub after the revision process.
- Abstract(参考訳): グループアクティビティ認識(GAR)は、複数のアクターがシーンで実行するアクティビティを検出することを目的としている。
先行作業モデルは、rgb、オプティカルフロー、キーポイントデータ型に基づく時空間的特徴をモデル化する。
しかし、時間性とデータ型の両方を使用することで、計算の複雑さが大幅に増大する。
我々の仮説は、時間性のないRGBデータのみを使用することで、精度を損なうことなく性能を維持できるというものである。
そこで我々は,バレーボールビデオのための新しいGAR手法であるDECOMPLを提案する。
視覚枝では、アテンションプールを用いた特徴を選択的に抽出する。
座標分岐では、アクターの現在の構成を考慮し、ボックス座標から空間情報を抽出する。
さらに,最近の文献が大半を基盤とするバレーボールデータセットを分析し,そのラベリング方式が活動の集団概念を個々の俳優のレベルに分解することを確認した。
我々は,グループ概念を強調するために,データセットを体系的に手動で再注釈した。
Volleyball と Collective Activity (別のドメイン、つまりバレーボールではない) のデータセットの実験結果は、提案されたモデル DECOMPL の有効性を実証した。
私たちのコード、結果、新しいアノテーションは、リビジョンプロセスの後、githubで利用可能になります。
関連論文リスト
- Skeleton-based Group Activity Recognition via Spatial-Temporal Panoramic Graph [4.075741925017479]
グループアクティビティ認識は、ビデオから集合的なアクティビティを理解することを目的としている。
既存のソリューションはRGBのモダリティに依存しており、背景の変化のような課題に直面している。
パノラマグラフを設計し、複数の人物の骨格や物体を包含してグループ活動をカプセル化する。
論文 参考訳(メタデータ) (2024-07-28T13:57:03Z) - SoGAR: Self-supervised Spatiotemporal Attention-based Social Group
Activity Recognition [47.3759947287782]
本稿では,自己教師型トランスフォーマーを用いた社会グループ活動(SoGAR)の新たなアプローチを提案する。
我々の目的は、対照的な視点から抽出された特徴が、自己時間領域間で一貫していることを保証する。
提案手法は, 3つのグループアクティビティ認識ベンチマークにおいて, 最先端の結果を得た。
論文 参考訳(メタデータ) (2023-04-27T03:41:15Z) - Knowledge Combination to Learn Rotated Detection Without Rotated
Annotation [53.439096583978504]
回転バウンディングボックスは、伸長したオブジェクトの出力あいまいさを劇的に減少させる。
この効果にもかかわらず、回転検出器は広く使われていない。
本稿では,モデルが正確な回転ボックスを予測できるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-05T03:07:36Z) - Simplifying Open-Set Video Domain Adaptation with Contrastive Learning [16.72734794723157]
ラベル付きデータセットから非ラベル付きデータセットに予測モデルを適用するために、教師なしのビデオドメイン適応手法が提案されている。
我々は、OUVDA(Open-set Video Domain adapt)と呼ばれるより現実的なシナリオに対処し、ターゲットデータセットはソースと共有されていない"未知"セマンティックカテゴリを含む。
本稿では,ビデオデータ中の時間情報を自由に利用することで,特徴空間をよりよくクラスタ化できるビデオ指向の時間的コントラスト損失を提案する。
論文 参考訳(メタデータ) (2023-01-09T13:16:50Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Representing Videos as Discriminative Sub-graphs for Action Recognition [165.54738402505194]
ビデオ中の各アクションの識別パターンを表現およびエンコードするためのサブグラフの新たな設計を提案する。
時空グラフとクラスタを各スケールでコンパクトなサブグラフに新たに構築するMUlti-scale Sub-Earn Ling (MUSLE) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-11T16:15:25Z) - COMPOSER: Compositional Learning of Group Activity in Videos [33.526331969279106]
グループアクティビティ認識(GAR)は、短いビデオクリップでアクターのグループによって実行されるアクティビティを検出する。
トークンに対する注意に基づく推論を行うマルチスケールトランスフォーマーアーキテクチャであるComposERを提案する。
COMPOSERは新しい94.5%の精度をキーポイントのみのモダリティで達成した。
論文 参考訳(メタデータ) (2021-12-11T01:25:46Z) - Pose is all you need: The pose only group activity recognition system
(POGARS) [7.876115370275732]
本稿では,Pose Only Group Activity Recognition System(POGARS)という,ディープラーニングに基づくグループアクティビティ認識手法を提案する。
POGARSは1D CNNを使用して、グループ活動に関わる個人のダイナミクスを学習し、ピクセルデータから学習を強制する。
実験結果から,POGARSは,広く使用されているバレーボールデータセットの最先端手法と比較して,高い競争力を発揮することが確認された。
論文 参考訳(メタデータ) (2021-08-09T17:16:04Z) - Social Adaptive Module for Weakly-supervised Group Activity Recognition [143.68241396839062]
本稿では、弱教師付きグループ活動認識(GAR)と呼ばれる新しいタスクを提案する。
従来のGARタスクとは違い、ビデオレベルラベルのみが利用可能であるが、トレーニングデータにおいても、各フレーム内の重要人物は提供されない。
これにより、大規模なNBAデータセットの収集とアノテートが容易になり、GARに新たな課題が生まれます。
論文 参考訳(メタデータ) (2020-07-18T16:40:55Z) - FineGym: A Hierarchical Video Dataset for Fine-grained Action
Understanding [118.32912239230272]
FineGymは体操ビデオの上に構築された新しいアクション認識データセットだ。
アクションレベルとサブアクションレベルの両方で3レベルのセマンティック階層を持つテンポラリアノテーションを提供する。
この新たな粒度レベルは、行動認識に重大な課題をもたらす。
論文 参考訳(メタデータ) (2020-04-14T17:55:21Z) - Pairwise Similarity Knowledge Transfer for Weakly Supervised Object
Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。
本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。
COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-03-18T17:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。