論文の概要: Context-aware Proposal Network for Temporal Action Detection
- arxiv url: http://arxiv.org/abs/2206.09082v1
- Date: Sat, 18 Jun 2022 01:43:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 17:08:40.420888
- Title: Context-aware Proposal Network for Temporal Action Detection
- Title(参考訳): 時間的行動検出のための文脈認識提案ネットワーク
- Authors: Xiang Wang, Huaxin Zhang, Shiwei Zhang, Changxin Gao, Yuanjie Shao,
Nong Sang
- Abstract要約: 本報告では,CVPR-2022 AcitivityNet Challengeにおける時間的行動検出タスクの初当選ソリューションについて述べる。
このタスクは、アクションインスタンスの時間的境界を、長い未トリミングビデオの特定のクラスにローカライズすることを目的としている。
生成した提案にはリッチな文脈情報が含まれており、検出信頼度予測の恩恵を受ける可能性があると論じる。
- 参考スコア(独自算出の注目度): 47.72048484299649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report presents our first place winning solution for temporal
action detection task in CVPR-2022 AcitivityNet Challenge. The task aims to
localize temporal boundaries of action instances with specific classes in long
untrimmed videos. Recent mainstream attempts are based on dense boundary
matchings and enumerate all possible combinations to produce proposals. We
argue that the generated proposals contain rich contextual information, which
may benefits detection confidence prediction. To this end, our method mainly
consists of the following three steps: 1) action classification and feature
extraction by Slowfast, CSN, TimeSformer, TSP, I3D-flow, VGGish-audio, TPN and
ViViT; 2) proposal generation. Our proposed Context-aware Proposal Network
(CPN) builds on top of BMN, GTAD and PRN to aggregate contextual information by
randomly masking some proposal features. 3) action detection. The final
detection prediction is calculated by assigning the proposals with
corresponding video-level classifcation results. Finally, we ensemble the
results under different feature combination settings and achieve 45.8%
performance on the test set, which improves the champion result in CVPR-2021
ActivityNet Challenge by 1.1% in terms of average mAP.
- Abstract(参考訳): 本稿では,CVPR-2022 AcitivityNet Challengeにおける時間的行動検出タスクの初当選ソリューションを提案する。
このタスクは、長いビデオで特定のクラスにアクションインスタンスの時間的境界をローカライズすることを目的としている。
最近の主流の試みは、密接な境界マッチングに基づいて、提案を生成するために可能なすべての組み合わせを列挙している。
生成した提案にはリッチな文脈情報が含まれており、検出信頼度予測の恩恵を受ける可能性があると論じる。
この目的のために,本手法は主に以下の3つのステップからなる。
1) Slowfast, CSN, TimeSformer, TSP, I3D-flow, VGGish-audio, TPN, ViViTによる行動分類と特徴抽出
2) 提案の生成。
提案するコンテキスト対応提案ネットワーク(CPN)は,BMN,GTAD,PRN上に構築され,提案機能の一部をランダムにマスキングすることでコンテキスト情報を集約する。
3) 行動検出。
最終検出予測は、対応するビデオレベル分類結果に提案を割り当てて算出する。
最後に、異なる機能の組み合わせ設定で結果をアンサンブルし、テストセットで45.8%のパフォーマンスを達成し、平均的なマップでcvpr-2021アクティビティネットチャレンジのチャンピオン結果が1.1%向上した。
関連論文リスト
- Towards High-Quality Temporal Action Detection with Sparse Proposals [14.923321325749196]
時間的アクション検出は、人間のアクションインスタンスを含む時間的セグメントをローカライズし、アクションカテゴリを予測することを目的としている。
階層的特徴と相互作用するためにスパース提案を導入する。
実験により,高いtIoU閾値下での本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-09-18T06:15:19Z) - Proposal Relation Network for Temporal Action Detection [41.23726979184197]
このタスクの目的は、長い未編集ビデオの興味ある行動を特定し、特定することである。
本ソリューションはBMN上に構築され,1) Slowfast, CSN, ViViTによる動作分類と特徴符号化, 2)提案生成の3段階を含む。
私たちは、異なる設定で結果をアンサンブルし、テストセットで44.7%を達成する。これは、平均mAPの観点で、ActivityNet 2020のチャンピオンの結果を1.9%改善します。
論文 参考訳(メタデータ) (2021-06-20T02:51:34Z) - VL-NMS: Breaking Proposal Bottlenecks in Two-Stage Visual-Language
Matching [75.71523183166799]
マルチモーダル入力をマッチングするための一般的なフレームワークは、2段階のプロセスに基づいている。
これらの手法は、2つの段階における提案の役割間の明らかな不一致を見落としていると論じる。
今回提案するVL-NMSは、問い合わせ対応の提案を第一段階に行う最初の手法です。
論文 参考訳(メタデータ) (2021-05-12T13:05:25Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Complementary Boundary Generator with Scale-Invariant Relation Modeling
for Temporal Action Localization: Submission to ActivityNet Challenge 2020 [66.4527310659592]
本報告では,ActivityNet Challenge 2020 Task 1への提出時に使用したソリューションの概要を紹介する。
時間的行動ローカライゼーションタスクを2段階(すなわち提案生成と分類)に分離し,提案の多様性を高める。
提案手法は,課題テストセット上での平均mAPを用いて,時間的動作の局所化タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-20T04:35:40Z) - CBR-Net: Cascade Boundary Refinement Network for Action Detection:
Submission to ActivityNet Challenge 2020 (Task 1) [42.77192990307131]
我々は,ActivityNet Challenge 2020において,時間的行動ローカライゼーション(検出)(タスク1)の課題に対する解決策を提示する。
本研究の目的は、興味あるアクションが発生する間隔を時間的に局所化し、長い未編集ビデオにおけるアクションカテゴリを予測することである。
この段階では、微調整ネットワークによって得られたビデオレベルの分類結果を組み合わせて、各提案のカテゴリを予測する。
論文 参考訳(メタデータ) (2020-06-13T01:05:51Z) - Temporal Fusion Network for Temporal Action Localization:Submission to
ActivityNet Challenge 2020 (Task E) [45.3218136336925]
本稿では,Activitynet Challenge 2020で開催されているHACSコンペティションで使用した時間的行動ローカライズ手法について分析する。
課題は、未トリミングビデオ中のアクションの開始時刻と終了時刻を特定し、アクションカテゴリを予測することである。
提案手法は,複数のモデルの結果を融合することにより,検証セットで40.55%,mAPで40.53%を獲得し,この課題においてランク1を達成する。
論文 参考訳(メタデータ) (2020-06-13T00:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。