論文の概要: Actor-Context-Actor Relation Network for Spatio-Temporal Action
Localization
- arxiv url: http://arxiv.org/abs/2006.07976v3
- Date: Tue, 20 Apr 2021 20:30:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 12:46:19.023031
- Title: Actor-Context-Actor Relation Network for Spatio-Temporal Action
Localization
- Title(参考訳): 時空間行動定位のためのアクター・コンテキスト・アクター関係ネットワーク
- Authors: Junting Pan, Siyu Chen, Mike Zheng Shou, Yu Liu, Jing Shao, Hongsheng
Li
- Abstract要約: ACAR-Netは、時間的行動ローカライゼーションのための間接推論を可能にする、新しい高階関係推論演算子を基盤としている。
本手法は,ActivityNet Challenge 2020のAVA-Kineticsactionローカライゼーションタスクで第1位である。
- 参考スコア(独自算出の注目度): 47.61419011906561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Localizing persons and recognizing their actions from videos is a challenging
task towards high-level video understanding. Recent advances have been achieved
by modeling direct pairwise relations between entities. In this paper, we take
one step further, not only model direct relations between pairs but also take
into account indirect higher-order relations established upon multiple
elements. We propose to explicitly model the Actor-Context-Actor Relation,
which is the relation between two actors based on their interactions with the
context. To this end, we design an Actor-Context-Actor Relation Network
(ACAR-Net) which builds upon a novel High-order Relation Reasoning Operator and
an Actor-Context Feature Bank to enable indirect relation reasoning for
spatio-temporal action localization. Experiments on AVA and UCF101-24 datasets
show the advantages of modeling actor-context-actor relations, and
visualization of attention maps further verifies that our model is capable of
finding relevant higher-order relations to support action detection. Notably,
our method ranks first in the AVA-Kineticsaction localization task of
ActivityNet Challenge 2020, out-performing other entries by a significant
margin (+6.71mAP). Training code and models will be available at
https://github.com/Siyu-C/ACAR-Net.
- Abstract(参考訳): 人物をローカライズし、ビデオから行動を認識することは、ハイレベルなビデオ理解にとって難しい課題である。
最近の進歩は、エンティティ間の直接対関係をモデル化することで達成されている。
本稿では、ペア間の直接関係をモデル化するだけでなく、複数の要素上に構築された間接的高次関係も考慮する。
本稿では,アクター-コンテキスト-アクター関係(アクター-アクター関係)を明示的にモデル化することを提案する。
本研究では,新たな高次関係推論演算子とアクタ-コンテキスト特徴バンクを基盤とするアクタ-コンテキスト-アクタ関係ネットワーク(acar-net)を設計し,時空間的行動局所化のための間接的関係推論を可能にする。
AVAとUCF101-24データセットの実験はアクター・コンテキスト・アクター関係のモデル化の利点を示し、アテンションマップの可視化により、我々のモデルがアクション検出をサポートするための関連する高次関係を見つけることができることがさらに検証された。
特に,AVA-Kineticsaction Localization task of ActivityNet Challenge 2020では,他の項目よりも有意な差(+6.71mAP)が認められた。
トレーニングコードとモデルはhttps://github.com/Siyu-C/ACAR-Net.comから入手できる。
関連論文リスト
- Action Class Relation Detection and Classification Across Multiple Video
Datasets [1.15520000056402]
我々は、アクションクラス関係の検出と分類という2つの新しい機械学習タスクについて検討する。
本稿では,クラスに関連する言語情報と視覚情報を用いて,アクションクラス間の関係を予測する統一モデルを提案する。
実験の結果, (i) テキストとビデオの事前学習した最近のニューラルネットワークモデルは高い予測性能に寄与し, (ii) アクションラベルテキストに基づく関係予測はビデオに基づくよりも正確であり, (iii) ブレンディングアプローチは, 場合によっては予測性能をさらに向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-08-15T03:56:46Z) - MRSN: Multi-Relation Support Network for Video Action Detection [15.82531313330869]
アクション検出は、モデリング関係を必要とするビデオ理解の課題である。
本稿では,多時化支援ネットワークという新しいネットワークを提案する。
本実験は,関係を個別にモデル化し,関係レベルの相互作用を実行することによって,最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-24T10:15:31Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - CycleACR: Cycle Modeling of Actor-Context Relations for Video Action
Detection [67.90338302559672]
生のビデオシナリオを直接活用するのではなく,アクター関連シーンコンテキストを選択して関係モデリングを改善することを提案する。
我々は、アクターとコンテキストの関係を双方向形式でモデル化する対称グラフを持つCycleACR(CycleACR)を開発した。
C2A-Eに焦点を当てた既存の設計と比較して、CycleACRはより効果的な関係モデリングのためのA2C-Rを導入しています。
論文 参考訳(メタデータ) (2023-03-28T16:40:47Z) - Graph Convolutional Module for Temporal Action Localization in Videos [142.5947904572949]
アクション・ユニット間の関係は、アクション・ローカライゼーションにおいて重要な役割を果たすと主張する。
より強力なアクション検出器は、各アクションユニットの局所的な内容をキャプチャするだけでなく、関連するコンテキストに関する広い視野を許容するべきである。
本稿では,既存の動作ローカライズ手法に簡単にプラグイン可能な汎用グラフ畳み込みモジュール(GCM)を提案する。
論文 参考訳(メタデータ) (2021-12-01T06:36:59Z) - Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-03T23:43:55Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。