論文の概要: Flow-Assisted Motion Learning Network for Weakly-Supervised Group Activity Recognition
- arxiv url: http://arxiv.org/abs/2405.18012v1
- Date: Tue, 28 May 2024 09:53:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 19:18:23.824842
- Title: Flow-Assisted Motion Learning Network for Weakly-Supervised Group Activity Recognition
- Title(参考訳): 弱教師付きグループ活動認識のためのフロー支援型運動学習ネットワーク
- Authors: Muhammad Adi Nugroho, Sangmin Woo, Sumin Lee, Jinyoung Park, Yooseung Wang, Donguk Kim, Changick Kim,
- Abstract要約: Weakly-Supervised Group Activity Recognition (WSGAR) は、ビデオレベルラベルを持つ個人とアクターレベルラベルを持たない個人のグループが一緒に行う活動を理解することを目的としている。
本稿では、アクターの特徴を抽出する動き認識エンコーダからなるWSGARのためのフロー支援運動学習ネットワーク(Flaming-Net)を提案する。
我々は、NBAデータセットの2.8%のMPCAスコアを含む2つのベンチマークで、Flaming-Netが最先端のWSGARの結果を新たに発表した。
- 参考スコア(独自算出の注目度): 21.482797499764093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly-Supervised Group Activity Recognition (WSGAR) aims to understand the activity performed together by a group of individuals with the video-level label and without actor-level labels. We propose Flow-Assisted Motion Learning Network (Flaming-Net) for WSGAR, which consists of the motion-aware actor encoder to extract actor features and the two-pathways relation module to infer the interaction among actors and their activity. Flaming-Net leverages an additional optical flow modality in the training stage to enhance its motion awareness when finding locally active actors. The first pathway of the relation module, the actor-centric path, initially captures the temporal dynamics of individual actors and then constructs inter-actor relationships. In parallel, the group-centric path starts by building spatial connections between actors within the same timeframe and then captures simultaneous spatio-temporal dynamics among them. We demonstrate that Flaming-Net achieves new state-of-the-art WSGAR results on two benchmarks, including a 2.8%p higher MPCA score on the NBA dataset. Importantly, we use the optical flow modality only for training and not for inference.
- Abstract(参考訳): Weakly-Supervised Group Activity Recognition (WSGAR) は、ビデオレベルラベルを持つ個人とアクターレベルラベルを持たない個人のグループが一緒に行う活動を理解することを目的としている。
本稿では、アクターの特徴を抽出する動き認識型アクターエンコーダと、アクター間の相互作用とアクティビティを推測する双方向関連モジュールからなるWSGARのためのフロー支援モーションラーニングネットワーク(Flaming-Net)を提案する。
Flaming-Netは、トレーニング段階での光学的フローのモダリティを活用して、局所的に活動的なアクターを見つける際の運動意識を高める。
リレーションモジュールの最初の経路であるアクター中心のパスは、まず個々のアクターの時間的ダイナミクスを捉え、それからアクター間の関係を構築する。
並行して、グループ中心のパスは、アクター間の空間的接続を同じ時間枠内で構築し、同時に時空間の時空間的ダイナミクスをキャプチャすることから始まる。
我々は、NBAデータセットの2.8%のMPCAスコアを含む2つのベンチマークで、Flaming-Netが最先端のWSGARの新たな結果を達成することを実証した。
重要なことは、光学フローのモダリティはトレーニングにのみ使用し、推論には使用しないということです。
関連論文リスト
- PaCMO: Partner Dependent Human Motion Generation in Dyadic Human
Activity using Neural Operators [20.45590914720127]
機能空間におけるパートナーの動きによって条件付けられた人間の動きの分布を学習するニューラル演算子に基づく生成モデルを提案する。
我々のモデルは任意の時間分解能で長いラベルのないアクションシーケンスを処理できる。
NTU RGB+DとDuetDanceのデータセット上でPaCMOを検証し,現実的な結果を得た。
論文 参考訳(メタデータ) (2022-11-25T22:20:11Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Dual-AI: Dual-path Actor Interaction Learning for Group Activity
Recognition [103.62363658053557]
空間および時間変換器を柔軟に配置するDual-path Actor Interaction (DualAI) フレームワークを提案する。
また,Dual-AIの2つのインタラクティブパスの間に,MAC-Loss(Multiscale Actor Contrastive Loss)を導入する。
我々のデュアルAIは、異なるアクターの識別的特徴を融合させることでグループ活動の認識を促進することができる。
論文 参考訳(メタデータ) (2022-04-05T12:17:40Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-03T23:43:55Z) - Learning Motion Flows for Semi-supervised Instrument Segmentation from
Robotic Surgical Video [64.44583693846751]
本研究は,スパースアノテーションを用いたロボット手術ビデオから半教師楽器のセグメンテーションについて検討する。
生成されたデータペアを利用することで、我々のフレームワークはトレーニングシーケンスの時間的一貫性を回復し、強化することができます。
その結果,本手法は最先端の半教師あり手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-06T02:39:32Z) - Actor-Context-Actor Relation Network for Spatio-Temporal Action
Localization [47.61419011906561]
ACAR-Netは、時間的行動ローカライゼーションのための間接推論を可能にする、新しい高階関係推論演算子を基盤としている。
本手法は,ActivityNet Challenge 2020のAVA-Kineticsactionローカライゼーションタスクで第1位である。
論文 参考訳(メタデータ) (2020-06-14T18:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。