論文の概要: Skeleton-based Group Activity Recognition via Spatial-Temporal Panoramic Graph
- arxiv url: http://arxiv.org/abs/2407.19497v1
- Date: Sun, 28 Jul 2024 13:57:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 17:52:40.894241
- Title: Skeleton-based Group Activity Recognition via Spatial-Temporal Panoramic Graph
- Title(参考訳): 空間時間パノラマグラフによる骨格に基づくグループ活動認識
- Authors: Zhengcen Li, Xinle Chang, Yueran Li, Jingyong Su,
- Abstract要約: グループアクティビティ認識は、ビデオから集合的なアクティビティを理解することを目的としている。
既存のソリューションはRGBのモダリティに依存しており、背景の変化のような課題に直面している。
パノラマグラフを設計し、複数の人物の骨格や物体を包含してグループ活動をカプセル化する。
- 参考スコア(独自算出の注目度): 4.075741925017479
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group Activity Recognition aims to understand collective activities from videos. Existing solutions primarily rely on the RGB modality, which encounters challenges such as background variations, occlusions, motion blurs, and significant computational overhead. Meanwhile, current keypoint-based methods offer a lightweight and informative representation of human motions but necessitate accurate individual annotations and specialized interaction reasoning modules. To address these limitations, we design a panoramic graph that incorporates multi-person skeletons and objects to encapsulate group activity, offering an effective alternative to RGB video. This panoramic graph enables Graph Convolutional Network (GCN) to unify intra-person, inter-person, and person-object interactive modeling through spatial-temporal graph convolutions. In practice, we develop a novel pipeline that extracts skeleton coordinates using pose estimation and tracking algorithms and employ Multi-person Panoramic GCN (MP-GCN) to predict group activities. Extensive experiments on Volleyball and NBA datasets demonstrate that the MP-GCN achieves state-of-the-art performance in both accuracy and efficiency. Notably, our method outperforms RGB-based approaches by using only estimated 2D keypoints as input. Code is available at https://github.com/mgiant/MP-GCN
- Abstract(参考訳): グループアクティビティ認識は、ビデオから集合的なアクティビティを理解することを目的としている。
既存のソリューションは主にRGBのモダリティに依存しており、背景のバリエーション、オクルージョン、動きのぼやけ、計算オーバーヘッドなどの課題に直面している。
一方、現在のキーポイントベースの手法は、人間の動きの軽量で情報的な表現を提供するが、正確な個々のアノテーションと特別な相互作用推論モジュールを必要とする。
これらの制約に対処するために,複数人の骨格とオブジェクトを包含したパノラマグラフを設計し,グループ活動をカプセル化し,RGBビデオの効果的な代替手段を提供する。
このパノラマグラフにより、グラフ畳み込みネットワーク(GCN)は、空間的時間的グラフ畳み込みを通じて、個人内、対人的、対人的対話的モデリングを統一することができる。
実際に,ポーズ推定と追跡アルゴリズムを用いて骨格座標を抽出し,多人数パノラマGCN(Multi-person Panoramic GCN)を用いてグループ活動を予測するパイプラインを開発した。
VolleyballとNBAデータセットの大規模な実験は、MP-GCNが最先端のパフォーマンスを精度と効率の両方で達成していることを示している。
特に,提案手法は推定2次元キーポイントのみを入力として利用することにより,RGBベースの手法よりも優れる。
コードはhttps://github.com/mgiant/MP-GCNで入手できる。
関連論文リスト
- Pose-Guided Graph Convolutional Networks for Skeleton-Based Action
Recognition [32.07659338674024]
グラフ畳み込みネットワーク(GCN)は、人体骨格を空間的および時間的グラフとしてモデル化することができる。
本研究では,高性能な人行動認識のためのマルチモーダルフレームワークとして,ポーズ誘導型GCN(PG-GCN)を提案する。
このモジュールの中核となる考え方は、トレーニング可能なグラフを使用して、スケルトンストリームから、ポーズストリームの機能を集約することで、より堅牢な機能表現能力を持つネットワークを実現することだ。
論文 参考訳(メタデータ) (2022-10-10T02:08:49Z) - Two-person Graph Convolutional Network for Skeleton-based Human
Interaction Recognition [11.650290790796323]
グラフ畳み込みネットワーク(GCN)は、骨格に基づく人間の行動認識領域において従来の手法より優れていた。
本稿では,関節間の空間的相互作用の相関を表す新しい2人グラフを提案する。
実験は、提案した2人グラフトポロジを利用する場合、相互作用と個々の動作の両方において精度の向上を示す。
論文 参考訳(メタデータ) (2022-08-12T08:50:15Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Learning Spatial Context with Graph Neural Network for Multi-Person Pose
Grouping [71.59494156155309]
イメージベース多人数ポーズ推定のためのボトムアップ手法は,キーポイント検出とグループ化の2段階からなる。
本研究では,グラフ分割問題としてグループ化タスクを定式化し,グラフニューラルネットワーク(gnn)を用いて親和性行列を学習する。
学習された幾何学に基づく親和性は、強固なキーポイント結合を達成するために外観に基づく親和性とさらに融合する。
論文 参考訳(メタデータ) (2021-04-06T09:21:14Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Visual Object Tracking by Segmentation with Graph Convolutional Network [7.729569666460712]
グラフ畳み込みネットワーク(GCN)モデルを用いて,スーパーピクセルベースのオブジェクトトラッキングを提案する。
提案モデルは,i)ラベル線形予測とi)各スーパーピクセルの構造認識特徴情報を統合した,汎用的なエンドツーエンドフレームワークを提供する。
論文 参考訳(メタデータ) (2020-09-05T12:43:21Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Skeleton Focused Human Activity Recognition in RGB Video [11.521107108725188]
骨格とRGBの両モードを併用したマルチモーダル特徴融合モデルを提案する。
モデルは、エンドツーエンドの方法で、バックプロパゲーションアルゴリズムによって個別または均一にトレーニングすることができる。
論文 参考訳(メタデータ) (2020-04-29T06:40:42Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。