論文の概要: CycleACR: Cycle Modeling of Actor-Context Relations for Video Action
Detection
- arxiv url: http://arxiv.org/abs/2303.16118v1
- Date: Tue, 28 Mar 2023 16:40:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 14:23:16.348341
- Title: CycleACR: Cycle Modeling of Actor-Context Relations for Video Action
Detection
- Title(参考訳): CycleACR:ビデオアクション検出のためのアクターコンテキスト関係のサイクルモデリング
- Authors: Lei Chen, Zhan Tong, Yibing Song, Gangshan Wu, Limin Wang
- Abstract要約: 生のビデオシナリオを直接活用するのではなく,アクター関連シーンコンテキストを選択して関係モデリングを改善することを提案する。
我々は、アクターとコンテキストの関係を双方向形式でモデル化する対称グラフを持つCycleACR(CycleACR)を開発した。
C2A-Eに焦点を当てた既存の設計と比較して、CycleACRはより効果的な関係モデリングのためのA2C-Rを導入しています。
- 参考スコア(独自算出の注目度): 67.90338302559672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The relation modeling between actors and scene context advances video action
detection where the correlation of multiple actors makes their action
recognition challenging. Existing studies model each actor and scene relation
to improve action recognition. However, the scene variations and background
interference limit the effectiveness of this relation modeling. In this paper,
we propose to select actor-related scene context, rather than directly leverage
raw video scenario, to improve relation modeling. We develop a Cycle
Actor-Context Relation network (CycleACR) where there is a symmetric graph that
models the actor and context relations in a bidirectional form. Our CycleACR
consists of the Actor-to-Context Reorganization (A2C-R) that collects actor
features for context feature reorganizations, and the Context-to-Actor
Enhancement (C2A-E) that dynamically utilizes reorganized context features for
actor feature enhancement. Compared to existing designs that focus on C2A-E,
our CycleACR introduces A2C-R for a more effective relation modeling. This
modeling advances our CycleACR to achieve state-of-the-art performance on two
popular action detection datasets (i.e., AVA and UCF101-24). We also provide
ablation studies and visualizations as well to show how our cycle actor-context
relation modeling improves video action detection. Code is available at
https://github.com/MCG-NJU/CycleACR.
- Abstract(参考訳): アクターとシーンコンテキストの関係モデリングは、複数のアクターの相関がアクション認識を困難にするビデオアクション検出を促進する。
既存の研究は、アクション認識を改善するために各アクターとシーンの関係をモデル化する。
しかし、シーン変動と背景干渉は、この関係モデリングの有効性を制限する。
本稿では,生のビデオシナリオを直接活用するのではなく,アクター関連シーンコンテキストを選択し,関係モデリングを改善することを提案する。
我々は、アクタとコンテキストの関係を双方向にモデル化する対称グラフが存在するサイクルアクタ-コンテキスト関係ネットワーク(cycleacr)を開発した。
私たちのcycleacrは、アクタからコンテキストへの再編成(a2c-r)と、アクタ機能拡張のために再編成されたコンテキスト機能を動的に利用するcontext-to-actor enhancement(c2a-e)で構成されています。
C2A-Eに焦点を当てた既存の設計と比較して、CycleACRはより効果的な関係モデリングのためのA2C-Rを導入しています。
このモデリングはCycleACRを前進させ、2つの一般的なアクション検出データセット(AVAとUCF101-24)で最先端のパフォーマンスを達成する。
また,アクター・コンテキスト関係モデリングが映像行動検出にどのように役立つかを示すために,アブレーション研究や可視化も行っている。
コードはhttps://github.com/MCG-NJU/CycleACRで入手できる。
関連論文リスト
- JARViS: Detecting Actions in Video Using Unified Actor-Scene Context Relation Modeling [8.463489896549161]
2段階ビデオローカライゼーション(英語: Two-stage Video Localization, VAD)は、ビデオクリップの空間的および時間的次元内のアクションの局所化と分類を含む、強迫的なタスクである。
JARViS(Joint Actor-scene context Relation Modeling)と呼ばれる2段階のVADフレームワークを提案する。
JARViSは、トランスフォーマーアテンションを用いて、空間的および時間的次元にわたって世界中に分布するクロスモーダルアクションセマンティクスを集約する。
論文 参考訳(メタデータ) (2024-08-07T08:08:08Z) - MRSN: Multi-Relation Support Network for Video Action Detection [15.82531313330869]
アクション検出は、モデリング関係を必要とするビデオ理解の課題である。
本稿では,多時化支援ネットワークという新しいネットワークを提案する。
本実験は,関係を個別にモデル化し,関係レベルの相互作用を実行することによって,最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-24T10:15:31Z) - Graph Convolutional Module for Temporal Action Localization in Videos [142.5947904572949]
アクション・ユニット間の関係は、アクション・ローカライゼーションにおいて重要な役割を果たすと主張する。
より強力なアクション検出器は、各アクションユニットの局所的な内容をキャプチャするだけでなく、関連するコンテキストに関する広い視野を許容するべきである。
本稿では,既存の動作ローカライズ手法に簡単にプラグイン可能な汎用グラフ畳み込みモジュール(GCM)を提案する。
論文 参考訳(メタデータ) (2021-12-01T06:36:59Z) - Spot What Matters: Learning Context Using Graph Convolutional Networks
for Weakly-Supervised Action Detection [0.0]
ビデオにおける人間の行動検出を改善するために,自己注意と畳み込みネットワークに基づくアーキテクチャを導入する。
我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。
実験結果から, 文脈的アプローチはビデオ・mAPの2点以上で, ベースライン動作検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-07-28T21:37:18Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Efficient Spatialtemporal Context Modeling for Action Recognition [42.30158166919919]
本稿では,アクション認識のための高密度長範囲コンテキスト情報映像をモデル化するためのRCCA-3Dモジュールを提案する。
我々は, 水平方向, 垂直方向, 深さの各時間における同一線上の点間の関係をモデル化し, 3次元クリスクロス構造を形成する。
非局所的な手法と比較して、RCCA-3DモジュールはビデオコンテキストモデリングにおいてパラメータとFLOPの数を25%と11%削減する。
論文 参考訳(メタデータ) (2021-03-20T14:48:12Z) - Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-03T23:43:55Z) - Context-Aware RCNN: A Baseline for Action Detection in Videos [66.16989365280938]
まず、認識精度がアクターのバウンディングボックスサイズと高い相関関係があることを経験的に見出した。
我々はRCNNを再検討し、アクター周辺の画像パッチをトリミングおよびサイズ変更することでアクター中心のアクション認識を行う。
アクターバウンディングボックスを少し拡張し、コンテキスト機能を融合することで、パフォーマンスをさらに向上できることがわかった。
論文 参考訳(メタデータ) (2020-07-20T03:11:48Z) - Actor-Context-Actor Relation Network for Spatio-Temporal Action
Localization [47.61419011906561]
ACAR-Netは、時間的行動ローカライゼーションのための間接推論を可能にする、新しい高階関係推論演算子を基盤としている。
本手法は,ActivityNet Challenge 2020のAVA-Kineticsactionローカライゼーションタスクで第1位である。
論文 参考訳(メタデータ) (2020-06-14T18:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。