論文の概要: SGA-INTERACT: A 3D Skeleton-based Benchmark for Group Activity Understanding in Modern Basketball Tactic
- arxiv url: http://arxiv.org/abs/2503.06522v1
- Date: Sun, 09 Mar 2025 08:53:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:51.960653
- Title: SGA-INTERACT: A 3D Skeleton-based Benchmark for Group Activity Understanding in Modern Basketball Tactic
- Title(参考訳): SGA-INTERACT:現代バスケットボールにおけるグループ活動理解のための3次元骨格ベースベンチマーク
- Authors: Yuchen Yang, Wei Wang, Yifei Liu, Linfeng Dong, Hao Wu, Mingxin Zhang, Zhihang Zhong, Xiao Sun,
- Abstract要約: グループ活動理解は、主にグループ活動認識タスクとして研究されている。
SGA-INTERACTは、グループアクティビティ理解のための最初の3Dスケルトンベースのベンチマークである。
One2Manyは、事前訓練された3D骨格のバックボーンを使用して、個々の特徴抽出を統一する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 14.754589492355423
- License:
- Abstract: Group Activity Understanding is predominantly studied as Group Activity Recognition (GAR) task. However, existing GAR benchmarks suffer from coarse-grained activity vocabularies and the only data form in single-view, which hinder the evaluation of state-of-the-art algorithms. To address these limitations, we introduce SGA-INTERACT, the first 3D skeleton-based benchmark for group activity understanding. It features complex activities inspired by basketball tactics, emphasizing rich spatial interactions and long-term dependencies. SGA-INTERACT introduces Temporal Group Activity Localization (TGAL) task, extending group activity understanding to untrimmed sequences, filling the gap left by GAR as a standalone task. In addition to the benchmark, we propose One2Many, a novel framework that employs a pretrained 3D skeleton backbone for unified individual feature extraction. This framework aligns with the feature extraction paradigm in RGB-based methods, enabling direct evaluation of RGB-based models on skeleton-based benchmarks. We conduct extensive evaluations on SGA-INTERACT using two skeleton-based methods, three RGB-based methods, and a proposed baseline within the One2Many framework. The general low performance of baselines highlights the benchmark's challenges, motivating advancements in group activity understanding.
- Abstract(参考訳): グループアクティビティ理解は、主にグループアクティビティ認識(GAR)タスクとして研究されている。
しかし、既存のGARベンチマークは、粗粒度の活動語彙に悩まされており、単一のビューで唯一のデータ形式であり、最先端のアルゴリズムの評価を妨げている。
これらの制約に対処するために,グループアクティビティ理解のための最初の3DスケルトンベースのベンチマークであるSGA-INTERACTを導入する。
バスケットボールの戦術にインスパイアされた複雑な活動を特徴とし、豊かな空間的相互作用と長期的な依存関係を強調している。
SGA-INTERACTは、TGAL(Temporal Group Activity Localization)タスクを導入し、グループアクティビティ理解を非トリミングシーケンスにまで拡張し、GARが単独タスクとして残したギャップを埋める。
ベンチマークに加えて,事前訓練された3D骨格のバックボーンを用いて個々の特徴抽出を行う新しいフレームワークであるOne2Manyを提案する。
このフレームワークは、RGBベースの手法の特徴抽出パラダイムと整合し、スケルトンベースのベンチマーク上でRGBベースのモデルの直接評価を可能にする。
2つのスケルトン法,3つのRGB法,および12Manyフレームワーク内で提案したベースラインを用いて,SGA-INTERACTを広範囲に評価する。
ベースラインの一般的な低パフォーマンスは、ベンチマークの課題を強調し、グループアクティビティ理解の進歩を動機付けている。
関連論文リスト
- Skeleton-based Group Activity Recognition via Spatial-Temporal Panoramic Graph [4.075741925017479]
グループアクティビティ認識は、ビデオから集合的なアクティビティを理解することを目的としている。
既存のソリューションはRGBのモダリティに依存しており、背景の変化のような課題に直面している。
パノラマグラフを設計し、複数の人物の骨格や物体を包含してグループ活動をカプセル化する。
論文 参考訳(メタデータ) (2024-07-28T13:57:03Z) - Part-aware Unified Representation of Language and Skeleton for Zero-shot Action Recognition [57.97930719585095]
本稿では,PURLS(Part-aware Unified Representation between Language and Skeleton)を紹介する。
本手法はスケルトン/言語のバックボーンと3つの大規模データセットを用いて評価する。
その結果、PURLSの普遍性と優れた性能を示し、以前のスケルトンベースのソリューションと他のドメインからの標準ベースラインを上回った。
論文 参考訳(メタデータ) (2024-06-19T08:22:32Z) - Towards More Practical Group Activity Detection: A New Benchmark and Model [61.39427407758131]
グループアクティビティ検出(グループアクティビティ検出、英: Group Activity Detection、GAD)は、ビデオにおいて、各グループのメンバを特定し、同時にグループのアクティビティを分類するタスクである。
私たちはCaf'eと呼ばれる新しいデータセットを提示し、より実用的なシナリオとメトリクスを提示します。
また、未知数のグループと潜在グループメンバーを効率的に効率的に扱う新しいGADモデルを提案する。
論文 参考訳(メタデータ) (2023-12-05T16:48:17Z) - SoGAR: Self-supervised Spatiotemporal Attention-based Social Group Activity Recognition [45.419756454791674]
本稿では,自己教師型トランスフォーマーを用いた社会グループ活動(SoGAR)の新たなアプローチを提案する。
我々の目的は、対照的な視点から抽出された特徴が、自己時間領域間で一貫していることを保証する。
提案手法は, 3つのグループアクティビティ認識ベンチマークにおいて, 最先端の結果を得た。
論文 参考訳(メタデータ) (2023-04-27T03:41:15Z) - DECOMPL: Decompositional Learning with Attention Pooling for Group
Activity Recognition from a Single Volleyball Image [3.6144103736375857]
グループアクティビティ認識(GAR)は、複数のアクターがシーンで実行するアクティビティを検出することを目的としている。
本稿では,バレーボールビデオのための新しいGAR手法であるDECOMPLを提案する。
視覚枝では、アテンションプールを用いた特徴を選択的に抽出する。
座標系ではアクターの現在の構成を考慮し、ボックス座標から空間情報を抽出する。
論文 参考訳(メタデータ) (2023-03-11T16:30:51Z) - Learning Rational Subgoals from Demonstrations and Instructions [71.86713748450363]
本稿では,新しい目標を達成するための効率的な長期計画を支援する有用なサブゴール学習フレームワークを提案する。
我々のフレームワークの中核は合理的なサブゴール(RSG)の集合であり、基本的には環境状態上の二項分類器である。
目標記述が与えられた場合、学習したサブゴールと派生した依存関係は、A*やRTといった既成の計画アルゴリズムを促進する。
論文 参考訳(メタデータ) (2023-03-09T18:39:22Z) - Attentive pooling for Group Activity Recognition [23.241686027269928]
グループ活動認識では、個人とそれに対応するグループの関係を表現するために階層的枠組みが広く採用されている。
そこで我々は,個人行動からグループ活動への重み付け情報移行を可能にする,新しいコンテキストプーリング手法,attentive poolingを提案する。
論文 参考訳(メタデータ) (2022-08-31T13:26:39Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - COMPOSER: Compositional Learning of Group Activity in Videos [33.526331969279106]
グループアクティビティ認識(GAR)は、短いビデオクリップでアクターのグループによって実行されるアクティビティを検出する。
トークンに対する注意に基づく推論を行うマルチスケールトランスフォーマーアーキテクチャであるComposERを提案する。
COMPOSERは新しい94.5%の精度をキーポイントのみのモダリティで達成した。
論文 参考訳(メタデータ) (2021-12-11T01:25:46Z) - Spatio-temporal Relation Modeling for Few-shot Action Recognition [100.3999454780478]
本稿では,高次時間表現を同時に学習しながら,クラス固有の特徴の識別性を向上する数ショットアクション認識フレームワークSTRMを提案する。
本手法は,本研究でもっとも優れた手法に比べて,分類精度が3.5%向上した。
論文 参考訳(メタデータ) (2021-12-09T18:59:14Z) - Social Adaptive Module for Weakly-supervised Group Activity Recognition [143.68241396839062]
本稿では、弱教師付きグループ活動認識(GAR)と呼ばれる新しいタスクを提案する。
従来のGARタスクとは違い、ビデオレベルラベルのみが利用可能であるが、トレーニングデータにおいても、各フレーム内の重要人物は提供されない。
これにより、大規模なNBAデータセットの収集とアノテートが容易になり、GARに新たな課題が生まれます。
論文 参考訳(メタデータ) (2020-07-18T16:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。