論文の概要: Asynchronous Interaction Aggregation for Action Detection
- arxiv url: http://arxiv.org/abs/2004.07485v1
- Date: Thu, 16 Apr 2020 07:03:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 21:48:27.197546
- Title: Asynchronous Interaction Aggregation for Action Detection
- Title(参考訳): 行動検出のための非同期インタラクションアグリゲーション
- Authors: Jiajun Tang, Jin Xia, Xinzhi Mu, Bo Pang, Cewu Lu
- Abstract要約: 本稿では,異なるインタラクションを活用して動作検出を促進する非同期インタラクション集約ネットワーク(AIA)を提案する。
ひとつはインタラクション集約構造(IA)で、複数のタイプのインタラクションをモデル化し統合するための一様パラダイムを採用し、もうひとつはパフォーマンス向上を実現するための非同期メモリ更新アルゴリズム(AMU)です。
- 参考スコア(独自算出の注目度): 43.34864954534389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding interaction is an essential part of video action detection. We
propose the Asynchronous Interaction Aggregation network (AIA) that leverages
different interactions to boost action detection. There are two key designs in
it: one is the Interaction Aggregation structure (IA) adopting a uniform
paradigm to model and integrate multiple types of interaction; the other is the
Asynchronous Memory Update algorithm (AMU) that enables us to achieve better
performance by modeling very long-term interaction dynamically without huge
computation cost. We provide empirical evidence to show that our network can
gain notable accuracy from the integrative interactions and is easy to train
end-to-end. Our method reports the new state-of-the-art performance on AVA
dataset, with 3.7 mAP gain (12.6% relative improvement) on validation split
comparing to our strong baseline. The results on dataset UCF101-24 and
EPIC-Kitchens further illustrate the effectiveness of our approach. Source code
will be made public at: https://github.com/MVIG-SJTU/AlphAction .
- Abstract(参考訳): インタラクションを理解することは、ビデオアクション検出の重要な部分である。
本稿では,異なるインタラクションを活用して動作検出を促進する非同期インタラクション集約ネットワーク(AIA)を提案する。
一つは相互作用集約構造 (IA) で、一つは複数の相互作用をモデル化し統合するための一様パラダイムを採用し、もう一つは非同期メモリ更新アルゴリズム (AMU) で、大きな計算コストを伴わずに、非常に長期の相互作用を動的にモデル化することで、より良いパフォーマンスを実現する。
ネットワークが統合的相互作用から顕著な精度を得ることができ、エンドツーエンドのトレーニングが容易であることを示す実証的な証拠を提供する。
提案手法では,AVAデータセット上での新たな最先端性能を報告し,高いベースラインと比較した場合の検証分割で3.7mAP(相対改善率12.6%)を得た。
UCF101-24とEPIC-Kitchensのデータセットの結果は、我々のアプローチの有効性をさらに示している。
ソースコードは、https://github.com/MVIG-SJTU/AlphAction で公開されます。
関連論文リスト
- DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Holistic Interaction Transformer Network for Action Detection [15.667833703317124]
HIT"ネットワークは、RGBストリームとポーズストリームからなる総合的なバイモーダルフレームワークである。
提案手法は,J-HMDB,UCF101-24,MultiSportsデータセットにおいて,従来の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-23T10:19:37Z) - Spatial Parsing and Dynamic Temporal Pooling networks for Human-Object
Interaction detection [30.896749712316222]
本稿では,空間的パーシングと動的テンポリング(SPDTP)ネットワークについて紹介する。
我々はCAD-120およびSome-Elseデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-07T07:26:06Z) - Reformulating HOI Detection as Adaptive Set Prediction [25.44630995307787]
我々は適応セット予測問題としてHOI検出を再構成する。
本稿では,並列インスタンスとインタラクションブランチを備えた適応型セットベースワンステージフレームワーク(as-net)を提案する。
この手法は、人間のポーズや言語的特徴を必要とせず、従来の最先端の手法を上回ります。
論文 参考訳(メタデータ) (2021-03-10T10:40:33Z) - A Co-Interactive Transformer for Joint Slot Filling and Intent Detection [61.109486326954205]
音声言語理解システム(SLU)を構築する上では,インテント検出とスロットフィリングが主要な2つのタスクである。
以前の研究では、2つのタスクを個別にモデル化するか、インテントからスロットへの単一の情報フローのみを考慮していた。
本稿では,2つのタスク間の相互影響を同時に検討するコ・インターアクティブ・トランスフォーマーを提案する。
論文 参考訳(メタデータ) (2020-10-08T10:16:52Z) - DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。
本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。
実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文 参考訳(メタデータ) (2020-10-02T13:59:05Z) - Learning End-to-End Action Interaction by Paired-Embedding Data
Augmentation [10.857323240766428]
新しいInteractive Action Translation (IAT)タスクは、ラベルなしのインタラクティブなペアからエンドツーエンドのアクションインタラクションを学ぶことを目的としている。
Paired-Embedding (PE) 法を提案する。
2つのデータセットの実験結果から,本手法の優れた効果と幅広い応用可能性が確認された。
論文 参考訳(メタデータ) (2020-07-16T01:54:16Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。