論文の概要: Pixels or Positions? Benchmarking Modalities in Group Activity Recognition
- arxiv url: http://arxiv.org/abs/2511.12606v1
- Date: Sun, 16 Nov 2025 14:04:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.406012
- Title: Pixels or Positions? Benchmarking Modalities in Group Activity Recognition
- Title(参考訳): 画像と位置 : グループ活動認識におけるモダリティのベンチマーク
- Authors: Drishya Karki, Merey Ramazanova, Anthony Cioppa, Silvio Giancola, Bernard Ghanem,
- Abstract要約: グループアクティビティ認識(GAR)は、監視および屋内チームスポーツのためのビデオモダリティについてよく研究されている。
エージェントの位置や軌道のような他のモダリティ、すなわち追跡は、比較的未探索のままである。
同じグループのアクティビティのために、放送されたビデオと追跡データを整列する標準化されたベンチマークは存在しない。
- 参考スコア(独自算出の注目度): 62.18221200080195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Group Activity Recognition (GAR) is well studied on the video modality for surveillance and indoor team sports (e.g., volleyball, basketball). Yet, other modalities such as agent positions and trajectories over time, i.e. tracking, remain comparatively under-explored despite being compact, agent-centric signals that explicitly encode spatial interactions. Understanding whether pixel (video) or position (tracking) modalities leads to better group activity recognition is therefore important to drive further research on the topic. However, no standardized benchmark currently exists that aligns broadcast video and tracking data for the same group activities, leading to a lack of apples-to-apples comparison between these modalities for GAR. In this work, we introduce SoccerNet-GAR, a multimodal dataset built from the $64$ matches of the football World Cup 2022. Specifically, the broadcast videos and player tracking modalities for $94{,}285$ group activities are synchronized and annotated with $10$ categories. Furthermore, we define a unified evaluation protocol to benchmark two strong unimodal approaches: (i) a competitive video-based classifiers and (ii) a tracking-based classifiers leveraging graph neural networks. In particular, our novel role-aware graph architecture for tracking-based GAR directly encodes tactical structure through positional edges and temporal attention. Our tracking model achieves $67.2\%$ balanced accuracy compared to $58.1\%$ for the best video baseline, while training $4.25 \times$ faster with $438 \times$ fewer parameters ($197K$ \vs $86.3M$). This study provides new insights into the relative strengths of pixels and positions for group activity recognition. Overall, it highlights the importance of modality choice and role-aware modeling for GAR.
- Abstract(参考訳): グループアクティビティ認識(GAR)は、監視および屋内チームスポーツ(例えば、バレーボール、バスケットボール)のためのビデオモダリティについてよく研究されている。
しかし、時間とともにエージェントの位置や軌道のような他のモダリティ、すなわち追跡は、空間的相互作用を明示的に符号化するコンパクトなエージェント中心の信号であるにもかかわらず、比較的未探索のままである。
ピクセル(ビデオ)や位置(追跡)のモダリティがグループ活動の認識を向上させるかどうかを理解することは、このトピックについてさらなる研究を進める上で重要である。
しかし、現在、同じグループのアクティビティのために放送されたビデオと追跡データを整列する標準化されたベンチマークは存在しないため、これらのGARのモダリティ間のリンゴとアプリケーションの比較が欠如している。
本研究では,サッカーワールドカップ2022の6,4ドルの試合から構築したマルチモーダルデータセットである SoccerNet-GAR を紹介する。
具体的には、9,4{,}285ドルのグループアクティビティの放送ビデオとプレーヤー追跡モードを同期し、10ドルのカテゴリに注釈付けする。
さらに、2つの強力な単調なアプローチをベンチマークするための統一評価プロトコルも定義する。
(i)競争力のあるビデオベースの分類器
(II)グラフニューラルネットワークを利用した追跡ベース分類器。
特に、トラッキングに基づくGARのための新しいロールアウェアグラフアーキテクチャは、位置的エッジと時間的注意を通して戦術的構造を直接符号化する。
私たちの追跡モデルは、最高のビデオベースラインに対して$58.1\%の精度に対して$67.2\%のバランスを取る一方で、4.25 \times$より速く438 \times$少ないパラメータ($197K$ \vs 8,6.3M$)でトレーニングします。
本研究は,集団活動認識のための画素と位置の相対的強度に関する新たな知見を提供する。
全体として、GARにおけるモダリティ選択とロール・アウェア・モデリングの重要性を強調している。
関連論文リスト
- Temporal Correlation Meets Embedding: Towards a 2nd Generation of JDE-based Real-Time Multi-Object Tracking [52.04679257903805]
共同検出・埋め込み(JDE)トラッカーは多目的追跡(MOT)タスクにおいて優れた性能を示した。
TCBTrackという名前のトラッカーは、複数の公開ベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-19T07:48:45Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - DECOMPL: Decompositional Learning with Attention Pooling for Group
Activity Recognition from a Single Volleyball Image [3.6144103736375857]
グループアクティビティ認識(GAR)は、複数のアクターがシーンで実行するアクティビティを検出することを目的としている。
本稿では,バレーボールビデオのための新しいGAR手法であるDECOMPLを提案する。
視覚枝では、アテンションプールを用いた特徴を選択的に抽出する。
座標系ではアクターの現在の構成を考慮し、ボックス座標から空間情報を抽出する。
論文 参考訳(メタデータ) (2023-03-11T16:30:51Z) - A Graph-Based Method for Soccer Action Spotting Using Unsupervised
Player Classification [75.93186954061943]
アクションスポッティングには、ゲームのダイナミクス、イベントの複雑さ、ビデオシーケンスのバリエーションを理解することが含まれる。
本研究では, (a) 選手, 審判, ゴールキーパーをグラフのノードとして識別し, および (b) 時間的相互作用をグラフのシーケンスとしてモデル化することによって, 前者に焦点を当てる。
プレーヤ識別タスクでは,他のモダリティと組み合わせることで,平均mAPの57.83%の総合的な性能が得られる。
論文 参考訳(メタデータ) (2022-11-22T15:23:53Z) - COMPOSER: Compositional Learning of Group Activity in Videos [33.526331969279106]
グループアクティビティ認識(GAR)は、短いビデオクリップでアクターのグループによって実行されるアクティビティを検出する。
トークンに対する注意に基づく推論を行うマルチスケールトランスフォーマーアーキテクチャであるComposERを提案する。
COMPOSERは新しい94.5%の精度をキーポイントのみのモダリティで達成した。
論文 参考訳(メタデータ) (2021-12-11T01:25:46Z) - Inconsistent Few-Shot Relation Classification via Cross-Attentional
Prototype Networks with Contrastive Learning [16.128652726698522]
本稿では,Prototype Network-based Cross-attention contrastive Learning (ProtoCACL)を提案する。
実験結果から,我々のProtoCACLは,非一貫性な$K$と非一貫性な$N$設定の両方で,最先端のベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2021-10-13T07:47:13Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - Improved Soccer Action Spotting using both Audio and Video Streams [3.4376560669160394]
本稿では,ディープニューラルネットワークアーキテクチャの様々な段階における音声と映像の情報の組み合わせについて検討する。
我々は、Big Five European Leaguesの500のサッカーゲームビデオの注釈付きイベントを含む、 SoccerNetベンチマークデータセットを使用した。
平均的平均精度(mAP)は,行動分類タスクが7.43%,行動スポッティングタスクが4.19%であった。
論文 参考訳(メタデータ) (2020-11-09T09:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。