論文の概要: Group Activity Recognition via Dynamic Composition and Interaction
- arxiv url: http://arxiv.org/abs/2305.05583v1
- Date: Tue, 9 May 2023 16:18:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 12:11:51.140824
- Title: Group Activity Recognition via Dynamic Composition and Interaction
- Title(参考訳): 動的構成と相互作用によるグループ活動認識
- Authors: Youliang Zhang, Zhuo Zhou, Wenxuan Liu, Danni Xu, Zheng Wang
- Abstract要約: 本研究では,動的合成モジュール(DcM)と動的相互作用モジュール(DiM)を併用したDynamicFormerを提案する。
グループ構成と人間と物体の相互作用に関する知見は、私たちの中核的なアイデアを刺激する。
我々は,2つの公開データセットに対して広範な実験を行い,その手法が最先端を実現することを示す。
- 参考スコア(独自算出の注目度): 8.83578086094184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous group activity recognition approaches were limited to reasoning
using human relations or finding important subgroups and tended to ignore
indispensable group composition and human-object interactions. This absence
makes a partial interpretation of the scene and increases the interference of
irrelevant actions on the results. Therefore, we propose our DynamicFormer with
Dynamic composition Module (DcM) and Dynamic interaction Module (DiM) to model
relations and locations of persons and discriminate the contribution of
participants, respectively. Our findings on group composition and human-object
interaction inspire our core idea. Group composition tells us the location of
people and their relations inside the group, while interaction reflects the
relation between humans and objects outside the group. We utilize spatial and
temporal encoders in DcM to model our dynamic composition and build DiM to
explore interaction with a novel GCN, which has a transformer inside to
consider the temporal neighbors of human/object. Also, a Multi-level Dynamic
Integration is employed to integrate features from different levels. We conduct
extensive experiments on two public datasets and show that our method achieves
state-of-the-art.
- Abstract(参考訳): 従来のグループ活動認識手法は,人間関係を利用した推論や重要なサブグループ発見に限られていた。
この欠如はシーンを部分的に解釈し、結果に対する無関係なアクションの干渉を増加させる。
そこで本稿では,ダイナミックコンポジションモジュール(DcM)と動的インタラクションモジュール(DiM)を用いて,人との関係と位置をモデル化し,参加者の貢献を識別する。
グループ構成と人間と物体の相互作用に関する知見は、私たちの中核的なアイデアを刺激する。
グループ構成は、グループ内の人の位置とそれらの関係を教えてくれる一方、相互作用はグループ外の人間とオブジェクトの関係を反映する。
我々はdcmにおける空間的および時間的エンコーダを用いて動的構成をモデル化し、dimを構築し、人間/物体の時間的近傍を考えるトランスフォーマーを内蔵した新しいgcnと相互作用を探索する。
また、異なるレベルの機能を統合するために、マルチレベル動的統合が採用されています。
我々は,2つの公開データセットに対して広範な実験を行い,その手法が最先端を実現することを示す。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - in2IN: Leveraging individual Information to Generate Human INteractions [29.495166514135295]
In2IN(in2IN)は、人間と人間の動作生成を個別に記述した新しい拡散モデルである。
In2INで生成された動きと、HumanML3Dで事前訓練された1人の動きによって生成された動きとを組み合わせたモデル合成手法であるDualMDMを提案する。
論文 参考訳(メタデータ) (2024-04-15T17:59:04Z) - THOR: Text to Human-Object Interaction Diffusion via Relation Intervention [51.02435289160616]
我々は、リレーショナルインターベンション(THOR)を用いたテキスト誘導型ヒューマンオブジェクト相互作用拡散モデルを提案する。
各拡散段階において、テキスト誘導された人間と物体の動きを開始し、その後、人と物体の関係を利用して物体の動きに介入する。
テキスト記述をシームレスに統合するText2HOIデータセットであるText-BEHAVEを,現在最大規模で公開されている3D HOIデータセットに構築する。
論文 参考訳(メタデータ) (2024-03-17T13:17:25Z) - LEMON: Learning 3D Human-Object Interaction Relation from 2D Images [56.6123961391372]
人間の物体と物体の相互作用関係の学習は、AIと相互作用モデリングの具体化に不可欠である。
既存のほとんどの手法は、孤立した相互作用要素を予測することを学ぶことで目標に近づいている。
本稿では,相互の相互作用意図をマイニングし,幾何相関の抽出を導出するための曲率を用いた統一モデルLEMONを提案する。
論文 参考訳(メタデータ) (2023-12-14T14:10:57Z) - A Grammatical Compositional Model for Video Action Detection [24.546886938243393]
典型的なAnd-Orグラフに基づく行動検出のための新しい文法合成モデル(GCM)を提案する。
本モデルは,文法モデルの構成性とDNNのリッチな特徴を表現する能力の両面を活用するために,階層的な動作の固有構造と潜時的関係を利用する。
論文 参考訳(メタデータ) (2023-10-04T15:24:00Z) - Rethinking Trajectory Prediction via "Team Game" [118.59480535826094]
本稿では,対話型グループコンセンサスの概念を明示的に導入した,マルチエージェント軌道予測の新しい定式化について述べる。
チームスポーツと歩行者の2つのマルチエージェント設定において,提案手法は既存手法と比較して常に優れた性能を達成している。
論文 参考訳(メタデータ) (2022-10-17T07:16:44Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - Spatio-Temporal Dynamic Inference Network for Group Activity Recognition [7.007702816885332]
グループ活動は、その問題を解決するために人々のグループが行う活動を理解することを目的としている。
従来の手法は、人固有のコンテキストを無視する事前定義されたグラフの推論において制限される。
本稿では、動的関係(DR)モジュールと動的ウォーク(DW)モジュールで構成される動的推論ネットワーク(DIN)を提案する。
論文 参考訳(メタデータ) (2021-08-26T12:40:20Z) - Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-03T23:43:55Z) - Skeleton-based Relational Reasoning for Group Activity Analysis [40.49389173100578]
スケルトン情報を活用して、そこから直接個人間の相互作用を学習します。
本実験は,複数対人インタラクションをモデル化するスケルトンベースのアプローチの可能性を示す。
論文 参考訳(メタデータ) (2020-11-11T09:25:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。