論文の概要: Computer Vision based group activity detection and action spotting
- arxiv url: http://arxiv.org/abs/2511.13315v1
- Date: Mon, 17 Nov 2025 12:52:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.211276
- Title: Computer Vision based group activity detection and action spotting
- Title(参考訳): コンピュータビジョンによる集団活動検出と行動スポッティング
- Authors: Narthana Sivalingam, Santhirarajah Sivasthigan, Thamayanthi Mahendranathan, G. M. R. I. Godaliyadda, M. P. B. Ekanayake, H. M. V. R. Herath,
- Abstract要約: 多人数シーンにおけるグループ活動の検出は、複雑な人間との相互作用と時間的変化により困難である。
本研究では、ディープラーニングモデルとグラフベースの関係推論を組み合わせたグループ活動認識とアクションスポッティングのためのコンピュータビジョンベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Group activity detection in multi-person scenes is challenging due to complex human interactions, occlusions, and variations in appearance over time. This work presents a computer vision based framework for group activity recognition and action spotting using a combination of deep learning models and graph based relational reasoning. The system first applies Mask R-CNN to obtain accurate actor localization through bounding boxes and instance masks. Multiple backbone networks, including Inception V3, MobileNet, and VGG16, are used to extract feature maps, and RoIAlign is applied to preserve spatial alignment when generating actor specific features. The mask information is then fused with the feature maps to obtain refined masked feature representations for each actor. To model interactions between individuals, we construct Actor Relation Graphs that encode appearance similarity and positional relations using methods such as normalized cross correlation, sum of absolute differences, and dot product. Graph Convolutional Networks operate on these graphs to reason about relationships and predict both individual actions and group level activities. Experiments on the Collective Activity dataset demonstrate that the combination of mask based feature refinement, robust similarity search, and graph neural network reasoning leads to improved recognition performance across both crowded and non crowded scenarios. This approach highlights the potential of integrating segmentation, feature extraction, and relational graph reasoning for complex video understanding tasks.
- Abstract(参考訳): 多人数シーンにおけるグループ活動の検出は、複雑な人間同士の相互作用、閉塞、外見の変化により困難である。
本研究では、ディープラーニングモデルとグラフベースの関係推論を組み合わせたグループ活動認識とアクションスポッティングのためのコンピュータビジョンベースのフレームワークを提案する。
このシステムはまずMask R-CNNを用いて、バウンディングボックスとインスタンスマスクを介して正確なアクターローカライゼーションを得る。
Inception V3、MobileNet、VGG16などの複数のバックボーンネットワークを使用して特徴マップを抽出し、RoIAlignはアクター固有の特徴を生成する際の空間アライメントを維持する。
そして、マスク情報を特徴マップと融合させ、各アクターに対して洗練されたマスク付き特徴表現を得る。
個人間の相互作用をモデル化するために,正規化クロス相関,絶対差和,ドット積などの手法を用いて,外観類似性と位置関係を符号化するアクタ関係グラフを構築した。
グラフ畳み込みネットワークはこれらのグラフで動作し、関係を推論し、個々のアクションとグループレベルのアクティビティの両方を予測する。
Collective Activityデータセットの実験では、マスクベースの特徴改善、堅牢な類似性検索、グラフニューラルネットワーク推論の組み合わせが、混み合ったシナリオと非混み合ったシナリオの両方における認識性能の向上につながることが示されている。
このアプローチは、複雑なビデオ理解タスクのためのセグメンテーション、特徴抽出、リレーショナルグラフ推論を統合する可能性を強調している。
関連論文リスト
- Learning Human-Object Interaction as Groups [52.28258599873394]
GroupHOIは、幾何学的近接性および意味的類似性の観点から文脈情報を伝播するフレームワークである。
これは、より困難な非言語間相互作用検出タスクにおいて、主要なパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-10-21T07:25:10Z) - Understanding Spatio-Temporal Relations in Human-Object Interaction using Pyramid Graph Convolutional Network [2.223052975765005]
本稿では,人間と物体の相互作用を自動的に認識する新しいピラミッドグラフ畳み込みネットワーク(PGCN)を提案する。
このシステムは、映像データをグラフとして検出した結果から、人間と物体の2次元または3次元空間関係を表す。
我々は,人間と物体の相互作用認識の分野で,2つの挑戦的データセット上でモデルを評価した。
論文 参考訳(メタデータ) (2024-10-10T13:39:17Z) - Skeleton-based Group Activity Recognition via Spatial-Temporal Panoramic Graph [4.075741925017479]
グループアクティビティ認識は、ビデオから集合的なアクティビティを理解することを目的としている。
既存のソリューションはRGBのモダリティに依存しており、背景の変化のような課題に直面している。
パノラマグラフを設計し、複数の人物の骨格や物体を包含してグループ活動をカプセル化する。
論文 参考訳(メタデータ) (2024-07-28T13:57:03Z) - Correlation-Aware Deep Tracking [83.51092789908677]
本稿では,自己/横断的意図に着想を得た,新たなターゲット依存型特徴ネットワークを提案する。
我々のネットワークは機能ネットワークの複数の層にクロスイメージの特徴相関を深く埋め込んでいる。
我々のモデルは、豊富な未ペア画像に対して柔軟に事前訓練が可能であり、既存の手法よりも顕著に高速な収束をもたらす。
論文 参考訳(メタデータ) (2022-03-03T11:53:54Z) - Spot What Matters: Learning Context Using Graph Convolutional Networks
for Weakly-Supervised Action Detection [0.0]
ビデオにおける人間の行動検出を改善するために,自己注意と畳み込みネットワークに基づくアーキテクチャを導入する。
我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。
実験結果から, 文脈的アプローチはビデオ・mAPの2点以上で, ベースライン動作検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-07-28T21:37:18Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Learning Spatial Context with Graph Neural Network for Multi-Person Pose
Grouping [71.59494156155309]
イメージベース多人数ポーズ推定のためのボトムアップ手法は,キーポイント検出とグループ化の2段階からなる。
本研究では,グラフ分割問題としてグループ化タスクを定式化し,グラフニューラルネットワーク(gnn)を用いて親和性行列を学習する。
学習された幾何学に基づく親和性は、強固なキーポイント結合を達成するために外観に基づく親和性とさらに融合する。
論文 参考訳(メタデータ) (2021-04-06T09:21:14Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z) - Improved Actor Relation Graph based Group Activity Recognition [0.0]
人間の行動やグループ活動の詳細な説明は必須情報であり、リアルタイムCCTVビデオ監視、医療、スポーツビデオ分析などに利用することができる。
本研究では,一対のアクターの外観的類似性とアクターの位置を学習することで,グループ活動認識を主眼とする映像理解手法を提案する。
論文 参考訳(メタデータ) (2020-10-24T19:46:49Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。