論文の概要: ABN: Agent-Aware Boundary Networks for Temporal Action Proposal
Generation
- arxiv url: http://arxiv.org/abs/2203.08942v1
- Date: Wed, 16 Mar 2022 21:06:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 14:42:56.969911
- Title: ABN: Agent-Aware Boundary Networks for Temporal Action Proposal
Generation
- Title(参考訳): ABN:時間行動提案生成のためのエージェント対応境界ネットワーク
- Authors: Khoa Vo, Kashu Yamazaki, Sang Truong, Minh-Triet Tran, Akihiro
Sugimoto, Ngan Le
- Abstract要約: 時間的行動提案生成(TAPG)は、未トリミングビデオ中の時間的行動間隔を推定することを目的としている。
本稿では,2つのサブネットワークからなるエージェント・アウェア境界ネットワーク(ABN)を提案する。
提案するABNは,TAPGのバックボーンネットワークによらず,最先端の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 14.755186542366065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action proposal generation (TAPG) aims to estimate temporal
intervals of actions in untrimmed videos, which is a challenging yet plays an
important role in many tasks of video analysis and understanding. Despite the
great achievement in TAPG, most existing works ignore the human perception of
interaction between agents and the surrounding environment by applying a deep
learning model as a black-box to the untrimmed videos to extract video visual
representation. Therefore, it is beneficial and potentially improve the
performance of TAPG if we can capture these interactions between agents and the
environment. In this paper, we propose a novel framework named Agent-Aware
Boundary Network (ABN), which consists of two sub-networks (i) an Agent-Aware
Representation Network to obtain both agent-agent and agents-environment
relationships in the video representation, and (ii) a Boundary Generation
Network to estimate the confidence score of temporal intervals. In the
Agent-Aware Representation Network, the interactions between agents are
expressed through local pathway, which operates at a local level to focus on
the motions of agents whereas the overall perception of the surroundings are
expressed through global pathway, which operates at a global level to perceive
the effects of agents-environment. Comprehensive evaluations on 20-action
THUMOS-14 and 200-action ActivityNet-1.3 datasets with different backbone
networks (i.e C3D, SlowFast and Two-Stream) show that our proposed ABN robustly
outperforms state-of-the-art methods regardless of the employed backbone
network on TAPG. We further examine the proposal quality by leveraging
proposals generated by our method onto temporal action detection (TAD)
frameworks and evaluate their detection performances. The source code can be
found in this URL https://github.com/vhvkhoa/TAPG-AgentEnvNetwork.git.
- Abstract(参考訳): テンポラリアクションプロポーザル生成(tapg)は、未トリミングビデオにおけるアクションの時間間隔を推定することを目的としているが、ビデオ解析や理解の多くのタスクにおいて重要な役割を果たす。
TAPGにおける大きな成果にもかかわらず、既存の作品の多くは、未編集のビデオに深層学習モデルをブラックボックスとして適用することで、エージェントと周辺環境との相互作用に対する人間の認識を無視している。
したがって,エージェントと環境との相互作用を捉えることができれば,TAPGの性能が向上する可能性がある。
本稿では,2つのサブネットワークからなるエージェント・アウェア・バウンダリネットワーク(abn)という新しいフレームワークを提案する。
一 映像表現におけるエージェントエージェント・エージェント・エージェント・環境関係を得るためのエージェント・アウェア表示ネットワーク
(ii)時間間隔の信頼度スコアを推定する境界生成ネットワーク。
エージェント・アウェア表現ネットワークにおいて、エージェント間の相互作用は、エージェントの動作に焦点をあてて局所レベルで作用する局所的経路を介して表現され、周囲の全体的知覚は、エージェント環境の影響を知覚するためにグローバルレベルで作用するグローバル・パスを介して表現される。
異なるバックボーンネットワーク(C3D, SlowFast, Two-Stream)を持つ20アクションTHUMOS-14および200アクションActivityNet-1.3データセットの総合的な評価は, TAPG上の採用バックボーンネットワークに関係なく, 提案したABNが最先端の手法より優れていることを示す。
さらに,提案手法によって生成された提案を時間的行動検出(TAD)フレームワークに活用し,その検出性能を評価する。
ソースコードは、https://github.com/vhvkhoa/TAPG-AgentEnvNetwork.gitにある。
関連論文リスト
- Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Collaborative Multi-Agent Video Fast-Forwarding [30.843484383185473]
分散および集中型設定における協調的マルチエージェントビデオ高速転送フレームワークを2つ開発する。
これらのフレームワークでは、各エージェントは、複数の戦略に基づいて、調整可能なペースで、ビデオフレームを選択的に処理またはスキップすることができる。
文献の他のアプローチと比較して、フレームワークは重要なフレームのカバレッジを向上し、各エージェントで処理されるフレームの数を著しく削減する。
論文 参考訳(メタデータ) (2023-05-27T20:12:19Z) - AOE-Net: Entities Interactions Modeling with Adaptive Attention
Mechanism for Temporal Action Proposals Generation [24.81870045216019]
時間的アクションプロポーザル生成(TAPG)は、未トリミングビデオにおける動作間隔のローカライズを必要とする課題である。
マルチモーダル表現ネットワーク、すなわちアクター・オブジェクト・環境相互作用ネットワーク(AOE-Net)を用いてこれらの相互作用をモデル化することを提案する。
私たちのAOE-Netは、知覚に基づくマルチモーダル表現(PMR)と境界マッチングモジュール(BMM)の2つのモジュールで構成されています。
論文 参考訳(メタデータ) (2022-10-05T21:57:25Z) - Masked Transformer for Neighhourhood-aware Click-Through Rate Prediction [74.52904110197004]
本稿では,近隣相互作用に基づくCTR予測を提案し,そのタスクを異種情報ネットワーク(HIN)設定に組み込む。
周辺地域の表現を高めるために,ノード間のトポロジカルな相互作用を4種類検討する。
本研究では,2つの実世界のデータセットに関する総合的な実験を行い,提案手法が最先端のCTRモデルを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2022-01-25T12:44:23Z) - AEI: Actors-Environment Interaction with Adaptive Attention for Temporal
Action Proposals Generation [15.360689782405057]
本研究では,時間的行動提案生成のための映像表現を改善するために,アクタ環境インタラクション(AEI)ネットワークを提案する。
AEIは2つのモジュール、すなわち知覚に基づく視覚表現(PVR)と境界マッチングモジュール(BMM)を含んでいる。
論文 参考訳(メタデータ) (2021-10-21T20:43:42Z) - MACRPO: Multi-Agent Cooperative Recurrent Policy Optimization [17.825845543579195]
我々はtextitMulti-Agent Cooperative Recurrent Proximal Policy Optimization (MACRPO) と呼ばれる新しいマルチエージェントアクター批判手法を提案する。
我々は、批評家のネットワークアーキテクチャにおいてリカレント・レイヤを使用し、メタ・トラジェクトリを使用してリカレント・レイヤをトレーニングする新しいフレームワークを提案する。
連続的および離散的な行動空間を持つ3つの挑戦的マルチエージェント環境において,本アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2021-09-02T12:43:35Z) - Decoder Fusion RNN: Context and Interaction Aware Decoders for
Trajectory Prediction [53.473846742702854]
本稿では,動き予測のための反復的,注意に基づくアプローチを提案する。
Decoder Fusion RNN (DF-RNN) は、リカレント動作エンコーダ、エージェント間マルチヘッドアテンションモジュール、コンテキスト認識デコーダで構成される。
提案手法の有効性をArgoverseモーション予測データセットで検証し,その性能を公開ベンチマークで示す。
論文 参考訳(メタデータ) (2021-08-12T15:53:37Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z) - Agent-Environment Network for Temporal Action Proposal Generation [10.74737201306622]
時間的行動提案生成は、ビデオ中の人間の行動を含む時間的間隔をローカライズすることを目的としている。
エージェントとして知られる人間が環境と相互作用し、環境に影響を与えるアクションを実行するというアクション定義に基づいて、コンテキストエージェント環境ネットワークを提案する。
提案手法は, (i) エージェント経路と, (ii) エージェントが環境とどのように相互作用するかを知るため, (i) エージェント経路と, (ii) 環境経路をグローバルレベルで動作させる。
論文 参考訳(メタデータ) (2021-07-17T23:24:49Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。