論文の概要: AEI: Actors-Environment Interaction with Adaptive Attention for Temporal
Action Proposals Generation
- arxiv url: http://arxiv.org/abs/2110.11474v1
- Date: Thu, 21 Oct 2021 20:43:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-25 14:32:27.225177
- Title: AEI: Actors-Environment Interaction with Adaptive Attention for Temporal
Action Proposals Generation
- Title(参考訳): aei: 時間的行動提案生成のための適応的注意を伴うアクタ-環境相互作用
- Authors: Khoa Vo, Hyekang Joo, Kashu Yamazaki, Sang Truong, Kris Kitani, Ngan
Le
- Abstract要約: 本研究では,時間的行動提案生成のための映像表現を改善するために,アクタ環境インタラクション(AEI)ネットワークを提案する。
AEIは2つのモジュール、すなわち知覚に基づく視覚表現(PVR)と境界マッチングモジュール(BMM)を含んでいる。
- 参考スコア(独自算出の注目度): 14.314199765644462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans typically perceive the establishment of an action in a video through
the interaction between an actor and the surrounding environment. An action
only starts when the main actor in the video begins to interact with the
environment, while it ends when the main actor stops the interaction. Despite
the great progress in temporal action proposal generation, most existing works
ignore the aforementioned fact and leave their model learning to propose
actions as a black-box. In this paper, we make an attempt to simulate that
ability of a human by proposing Actor Environment Interaction (AEI) network to
improve the video representation for temporal action proposals generation. AEI
contains two modules, i.e., perception-based visual representation (PVR) and
boundary-matching module (BMM). PVR represents each video snippet by taking
human-human relations and humans-environment relations into consideration using
the proposed adaptive attention mechanism. Then, the video representation is
taken by BMM to generate action proposals. AEI is comprehensively evaluated in
ActivityNet-1.3 and THUMOS-14 datasets, on temporal action proposal and
detection tasks, with two boundary-matching architectures (i.e., CNN-based and
GCN-based) and two classifiers (i.e., Unet and P-GCN). Our AEI robustly
outperforms the state-of-the-art methods with remarkable performance and
generalization for both temporal action proposal generation and temporal action
detection.
- Abstract(参考訳): 人間は通常、俳優と周囲の環境との相互作用を通じて、ビデオ内のアクションの確立を認識する。
アクションは、ビデオ内のメインアクタが環境と対話し始めるときにのみ始まり、メインアクタがインタラクションを停止すると終了する。
時間的行動提案生成の大きな進歩にもかかわらず、既存の作品の多くは前述の事実を無視し、ブラックボックスとしてアクションを提案するためのモデル学習を残している。
本稿では,アクタ環境インタラクション(aei)ネットワークを提案し,時間的行動提案生成のための映像表現を改善することで,その能力をシミュレートする試みを行う。
AEIには、知覚に基づく視覚表現(PVR)と境界マッチングモジュール(BMM)の2つのモジュールが含まれている。
PVRは、人間の人間関係と人間環境関係を適応的注意機構を用いて考慮し、各ビデオスニペットを表現している。
そして、映像表現をBMMに取り込み、アクション提案を生成する。
AEIは、ActivityNet-1.3とTHUMOS-14データセットにおいて、時間的アクションの提案と検出タスクに基づいて、2つの境界マッチングアーキテクチャ(CNNベースとGCNベース)と2つの分類器(UnetとP-GCN)で包括的に評価されている。
我々のAEIは、時間的行動提案生成と時間的行動検出の両方において、顕著な性能と一般化で最先端の手法を頑健に上回ります。
関連論文リスト
- Technical Report for ActivityNet Challenge 2022 -- Temporal Action Localization [20.268572246761895]
本稿では,各アクションの時間的境界を特定し,未トリミングビデオにおけるアクションクラスを予測することを提案する。
Faster-TADは、TADのパイプラインを単純化し、素晴らしいパフォーマンスを得る。
論文 参考訳(メタデータ) (2024-10-31T14:16:56Z) - JARViS: Detecting Actions in Video Using Unified Actor-Scene Context Relation Modeling [8.463489896549161]
2段階ビデオローカライゼーション(英語: Two-stage Video Localization, VAD)は、ビデオクリップの空間的および時間的次元内のアクションの局所化と分類を含む、強迫的なタスクである。
JARViS(Joint Actor-scene context Relation Modeling)と呼ばれる2段階のVADフレームワークを提案する。
JARViSは、トランスフォーマーアテンションを用いて、空間的および時間的次元にわたって世界中に分布するクロスモーダルアクションセマンティクスを集約する。
論文 参考訳(メタデータ) (2024-08-07T08:08:08Z) - Collaboratively Self-supervised Video Representation Learning for Action
Recognition [58.195372471117615]
我々は,行動認識に特化した協調的自己指導型ビデオ表現学習フレームワークを設計する。
提案手法は,UCF101およびHMDB51データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-15T10:42:04Z) - CycleACR: Cycle Modeling of Actor-Context Relations for Video Action
Detection [67.90338302559672]
生のビデオシナリオを直接活用するのではなく,アクター関連シーンコンテキストを選択して関係モデリングを改善することを提案する。
我々は、アクターとコンテキストの関係を双方向形式でモデル化する対称グラフを持つCycleACR(CycleACR)を開発した。
C2A-Eに焦点を当てた既存の設計と比較して、CycleACRはより効果的な関係モデリングのためのA2C-Rを導入しています。
論文 参考訳(メタデータ) (2023-03-28T16:40:47Z) - AOE-Net: Entities Interactions Modeling with Adaptive Attention
Mechanism for Temporal Action Proposals Generation [24.81870045216019]
時間的アクションプロポーザル生成(TAPG)は、未トリミングビデオにおける動作間隔のローカライズを必要とする課題である。
マルチモーダル表現ネットワーク、すなわちアクター・オブジェクト・環境相互作用ネットワーク(AOE-Net)を用いてこれらの相互作用をモデル化することを提案する。
私たちのAOE-Netは、知覚に基づくマルチモーダル表現(PMR)と境界マッチングモジュール(BMM)の2つのモジュールで構成されています。
論文 参考訳(メタデータ) (2022-10-05T21:57:25Z) - E^2TAD: An Energy-Efficient Tracking-based Action Detector [78.90585878925545]
本稿では,事前定義されたキーアクションを高精度かつ効率的にローカライズするためのトラッキングベースソリューションを提案する。
UAV-Video Track of 2021 Low-Power Computer Vision Challenge (LPCVC)で優勝した。
論文 参考訳(メタデータ) (2022-04-09T07:52:11Z) - ABN: Agent-Aware Boundary Networks for Temporal Action Proposal
Generation [14.755186542366065]
時間的行動提案生成(TAPG)は、未トリミングビデオ中の時間的行動間隔を推定することを目的としている。
本稿では,2つのサブネットワークからなるエージェント・アウェア境界ネットワーク(ABN)を提案する。
提案するABNは,TAPGのバックボーンネットワークによらず,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-03-16T21:06:34Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Agent-Environment Network for Temporal Action Proposal Generation [10.74737201306622]
時間的行動提案生成は、ビデオ中の人間の行動を含む時間的間隔をローカライズすることを目的としている。
エージェントとして知られる人間が環境と相互作用し、環境に影響を与えるアクションを実行するというアクション定義に基づいて、コンテキストエージェント環境ネットワークを提案する。
提案手法は, (i) エージェント経路と, (ii) エージェントが環境とどのように相互作用するかを知るため, (i) エージェント経路と, (ii) 環境経路をグローバルレベルで動作させる。
論文 参考訳(メタデータ) (2021-07-17T23:24:49Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-03T23:43:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。