論文の概要: Dual-AI: Dual-path Action Interaction Learning for Group Activity
Recognition
- arxiv url: http://arxiv.org/abs/2204.02148v1
- Date: Tue, 5 Apr 2022 12:17:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 13:30:58.296590
- Title: Dual-AI: Dual-path Action Interaction Learning for Group Activity
Recognition
- Title(参考訳): Dual-AI:グループ活動認識のためのデュアルパスインタラクション学習
- Authors: Mingfei Han, David Junhao Zhang, Yali Wang, Rui Yan, Lina Yao, Xiaojun
Chang, Yu Qiao
- Abstract要約: 空間および時間変換器を柔軟に配置するDual-path Actor Interaction (DualAI) フレームワークを提案する。
また,Dual-AIの2つのインタラクティブパスの間に,MAC-Loss(Multiscale Actor Contrastive Loss)を導入する。
我々のデュアルAIは、異なるアクターの識別的特徴を融合させることでグループ活動の認識を促進することができる。
- 参考スコア(独自算出の注目度): 103.62363658053557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning spatial-temporal relation among multiple actors is crucial for group
activity recognition. Different group activities often show the diversified
interactions between actors in the video. Hence, it is often difficult to model
complex group activities from a single view of spatial-temporal actor
evolution. To tackle this problem, we propose a distinct Dual-path Actor
Interaction (DualAI) framework, which flexibly arranges spatial and temporal
transformers in two complementary orders, enhancing actor relations by
integrating merits from different spatiotemporal paths. Moreover, we introduce
a novel Multi-scale Actor Contrastive Loss (MAC-Loss) between two interactive
paths of Dual-AI. Via self-supervised actor consistency in both frame and video
levels, MAC-Loss can effectively distinguish individual actor representations
to reduce action confusion among different actors. Consequently, our Dual-AI
can boost group activity recognition by fusing such discriminative features of
different actors. To evaluate the proposed approach, we conduct extensive
experiments on the widely used benchmarks, including Volleyball, Collective
Activity, and NBA datasets. The proposed Dual-AI achieves state-of-the-art
performance on all these datasets. It is worth noting the proposed Dual-AI with
50% training data outperforms a number of recent approaches with 100% training
data. This confirms the generalization power of Dual-AI for group activity
recognition, even under the challenging scenarios of limited supervision.
- Abstract(参考訳): 複数のアクター間の空間的時間的関係の学習はグループ活動認識に不可欠である。
異なるグループ活動は、しばしばビデオ内のアクター間の多様な相互作用を示す。
したがって、時空間的アクター進化の単一視点から複雑なグループ活動をモデル化することはしばしば困難である。
そこで本研究では,空間的および時間的トランスフォーマーを2つの相補的な順序で柔軟に配置し,時空間的経路の長所を統合してアクタ関係を高めるdualai(dualai)フレームワークを提案する。
さらに,Dual-AIの2つのインタラクティブパスの間に,MAC-Loss(Multiscale Actor Contrastive Loss)を導入する。
MAC-Lossは、フレームレベルとビデオレベルでの自己監督的アクター一貫性により、個々のアクター表現を効果的に区別し、異なるアクター間のアクション混乱を低減する。
その結果, この2重aiは, 異なるアクタの識別的特徴を融合することにより, グループ活動認識を促進することができる。
提案手法を評価するため,Volleyball, Collective Activity, NBAデータセットなど,広く使用されているベンチマークについて広範な実験を行った。
提案されたDual-AIは、これらすべてのデータセットで最先端のパフォーマンスを達成する。
50%のトレーニングデータを持つ提案されたDual-AIは、最近の多くのアプローチで100%トレーニングデータよりも優れています。
これにより、限定的な監視の困難なシナリオでさえも、グループアクティビティ認識のためのデュアルaiの一般化能力が保証される。
関連論文リスト
- Flow-Assisted Motion Learning Network for Weakly-Supervised Group Activity Recognition [21.482797499764093]
Weakly-Supervised Group Activity Recognition (WSGAR) は、ビデオレベルラベルを持つ個人とアクターレベルラベルを持たない個人のグループが一緒に行う活動を理解することを目的としている。
本稿では、アクターの特徴を抽出する動き認識エンコーダからなるWSGARのためのフロー支援運動学習ネットワーク(Flaming-Net)を提案する。
我々は、NBAデータセットの2.8%のMPCAスコアを含む2つのベンチマークで、Flaming-Netが最先端のWSGARの結果を新たに発表した。
論文 参考訳(メタデータ) (2024-05-28T09:53:47Z) - The impact of Compositionality in Zero-shot Multi-label action recognition for Object-based tasks [4.971065912401385]
ゼロショットマルチラベル動作認識のための統一的なアプローチであるDual-VCLIPを提案する。
Dual-VCLIPは、マルチラベル画像分類のためのDualCoOp法を用いて、ゼロショット動作認識法であるVCLIPを強化する。
オブジェクトベースのアクションの大部分を含むCharadesデータセット上で,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-05-14T15:28:48Z) - Spatio-Temporal Proximity-Aware Dual-Path Model for Panoramic Activity Recognition [19.813895376349613]
パノラマ活動認識(PAR)は、異なるスケールにわたる人間の活動を特定する。
SPDP-Net(Social Proximity-aware Dual-Path Network)は、2つの主要な設計原則に基づくネットワークである。
S PDP-Netは、JRDB-PARデータセットのF1スコア全体の46.5%を達成している。
論文 参考訳(メタデータ) (2024-03-21T03:56:24Z) - I$^2$MD: 3D Action Representation Learning with Inter- and Intra-modal
Mutual Distillation [147.2183428328396]
一般のモード内相互蒸留(I$2$MD)フレームワークを紹介する。
In 2$MD, we first-formulate the cross-modal interaction as a cross-modal Mutual Distillation (CMD) process。
類似したサンプルの干渉を緩和し,その基盤となるコンテキストを活用するため,モーダル・ミューチュアル蒸留(IMD)戦略をさらに設計する。
論文 参考訳(メタデータ) (2023-10-24T07:22:17Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Identity-aware Graph Memory Network for Action Detection [37.65846189707054]
グラフメモリネットワークを通じて,アクターの身元情報を長期的・短期的両方の文脈で明確に強調する。
具体的には,長期関係モデリングを包括的に行う階層型グラフニューラルネットワーク(IGNN)を提案する。
我々は、異なるアイデンティティを持つアクターによる干渉の影響を低減するために、ID認識制約を生成するデュアルアテンションモジュール(DAM)を開発した。
論文 参考訳(メタデータ) (2021-08-26T02:34:55Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z) - Actor-Transformers for Group Activity Recognition [43.60866347282833]
本稿では,ビデオから個人行動やグループ活動を認識することを目的とする。
本稿では,グループ活動認識に関連する情報を学習し,選択的に抽出できるアクター・トランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2020-03-28T07:21:58Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。