論文の概要: Complementary Boundary Generator with Scale-Invariant Relation Modeling
for Temporal Action Localization: Submission to ActivityNet Challenge 2020
- arxiv url: http://arxiv.org/abs/2007.09883v2
- Date: Wed, 26 Aug 2020 01:51:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 13:49:55.225138
- Title: Complementary Boundary Generator with Scale-Invariant Relation Modeling
for Temporal Action Localization: Submission to ActivityNet Challenge 2020
- Title(参考訳): 時間的行動局所化のためのスケール不変リレーショナルモデリングによる相補的境界生成:ActivityNet Challenge 2020への提出
- Authors: Haisheng Su, Jinyuan Feng, Hao Shao, Zhenyu Jiang, Manyuan Zhang, Wei
Wu, Yu Liu, Hongsheng Li, Junjie Yan
- Abstract要約: 本報告では,ActivityNet Challenge 2020 Task 1への提出時に使用したソリューションの概要を紹介する。
時間的行動ローカライゼーションタスクを2段階(すなわち提案生成と分類)に分離し,提案の多様性を高める。
提案手法は,課題テストセット上での平均mAPを用いて,時間的動作の局所化タスクにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 66.4527310659592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report presents an overview of our solution used in the
submission to ActivityNet Challenge 2020 Task 1 (\textbf{temporal action
localization/detection}). Temporal action localization requires to not only
precisely locate the temporal boundaries of action instances, but also
accurately classify the untrimmed videos into specific categories. In this
paper, we decouple the temporal action localization task into two stages (i.e.
proposal generation and classification) and enrich the proposal diversity
through exhaustively exploring the influences of multiple components from
different but complementary perspectives. Specifically, in order to generate
high-quality proposals, we consider several factors including the video feature
encoder, the proposal generator, the proposal-proposal relations, the scale
imbalance, and ensemble strategy. Finally, in order to obtain accurate
detections, we need to further train an optimal video classifier to recognize
the generated proposals. Our proposed scheme achieves the state-of-the-art
performance on the temporal action localization task with \textbf{42.26}
average mAP on the challenge testing set.
- Abstract(参考訳): 本技術報告は、ActivityNet Challenge 2020 Task 1 (\textbf{temporal action localization/detection}) への提出に使用されるソリューションの概要を示す。
時間的アクションローカライゼーションは、アクションインスタンスの時間的境界を正確に特定するだけでなく、未編集のビデオを特定のカテゴリに正確に分類する必要がある。
本稿では,時間的行動ローカライゼーションタスクを2段階(提案生成と分類)に分割し,異なるが相補的な視点から複数のコンポーネントの影響を徹底的に探求することにより,提案の多様性を高める。
具体的には,高品質な提案を生成するために,映像特徴エンコーダ,提案生成器,提案-提案関係,スケール不均衡,アンサンブル戦略などの要素を検討する。
最後に、正確な検出を得るためには、生成した提案を認識するために最適なビデオ分類器をさらに訓練する必要がある。
提案手法は,課題テストセットの平均mAPを用いて,時間的動作の局所化タスクにおける最先端性能を実現する。
関連論文リスト
- Multi-modal Prompting for Low-Shot Temporal Action Localization [95.19505874963751]
低ショット(ゼロショット・少数ショット)シナリオ下での時間的行動局所化の問題点を考察する。
クラスに依存しない2段階のアクションローカライズアーキテクチャをTransformerに導入し,その後にオープン語彙分類を行った。
論文 参考訳(メタデータ) (2023-03-21T10:40:13Z) - Context-aware Proposal Network for Temporal Action Detection [47.72048484299649]
本報告では,CVPR-2022 AcitivityNet Challengeにおける時間的行動検出タスクの初当選ソリューションについて述べる。
このタスクは、アクションインスタンスの時間的境界を、長い未トリミングビデオの特定のクラスにローカライズすることを目的としている。
生成した提案にはリッチな文脈情報が含まれており、検出信頼度予測の恩恵を受ける可能性があると論じる。
論文 参考訳(メタデータ) (2022-06-18T01:43:43Z) - Adaptive Proposal Generation Network for Temporal Sentence Localization
in Videos [58.83440885457272]
ビデオ(TSLV)における時間文ローカライゼーションの問題に対処する。
従来のメソッドは、事前に定義されたセグメントの提案でターゲットセグメントをローカライズするトップダウンフレームワークに従っている。
本稿では,効率を向上しつつセグメントレベルの相互作用を維持するための適応提案生成ネットワーク(APGN)を提案する。
論文 参考訳(メタデータ) (2021-09-14T02:02:36Z) - Transferable Knowledge-Based Multi-Granularity Aggregation Network for
Temporal Action Localization: Submission to ActivityNet Challenge 2021 [33.840281113206444]
本報告では,2021 HACS 時空間行動ローカライゼーションチャレンジの提出に使用したソリューションの概要について述べる。
我々は、TCANet(Temporal Context Aggregation Network)を用いて、高品質なアクション提案を生成する。
また、トリミングされたビデオから未トリミングされたビデオに知識を移すための追加モジュールも採用しています。
提案手法は, 教師付きおよび弱教師付き時間的行動局所化トラックを用いて, 39.91 と 29.78 の平均 mAP をそれぞれ達成する。
論文 参考訳(メタデータ) (2021-07-27T06:18:21Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - BSN++: Complementary Boundary Regressor with Scale-Balanced Relation
Modeling for Temporal Action Proposal Generation [85.13713217986738]
我々は,時間的提案生成のための補完的境界回帰器と関係モデリングを利用する新しいフレームワークであるBSN++を提案する。
当然のことながら、提案されたBSN++は、時間的アクションローカライゼーションタスクに関するCVPR19 - ActivityNetのリーダーボードで1位にランクインした。
論文 参考訳(メタデータ) (2020-09-15T07:08:59Z) - Temporal Fusion Network for Temporal Action Localization:Submission to
ActivityNet Challenge 2020 (Task E) [45.3218136336925]
本稿では,Activitynet Challenge 2020で開催されているHACSコンペティションで使用した時間的行動ローカライズ手法について分析する。
課題は、未トリミングビデオ中のアクションの開始時刻と終了時刻を特定し、アクションカテゴリを予測することである。
提案手法は,複数のモデルの結果を融合することにより,検証セットで40.55%,mAPで40.53%を獲得し,この課題においてランク1を達成する。
論文 参考訳(メタデータ) (2020-06-13T00:33:00Z) - Accurate Temporal Action Proposal Generation with Relation-Aware Pyramid
Network [29.7640925776191]
高精度な時間的行動提案を生成するための関係対応ピラミッドネットワーク(RapNet)を提案する。
RapNetでは、コンテキスト蒸留のための局所的な特徴間の双方向の長距離関係を利用するために、新しいリレーションアウェアモジュールが導入された。
論文 参考訳(メタデータ) (2020-03-09T13:47:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。