論文の概要: CBR-Net: Cascade Boundary Refinement Network for Action Detection:
Submission to ActivityNet Challenge 2020 (Task 1)
- arxiv url: http://arxiv.org/abs/2006.07526v2
- Date: Wed, 24 Jun 2020 04:22:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 21:10:23.549196
- Title: CBR-Net: Cascade Boundary Refinement Network for Action Detection:
Submission to ActivityNet Challenge 2020 (Task 1)
- Title(参考訳): cbr-net:カスケード境界改良ネットワークによる行動検出: activitynet challenge 2020 (task 1) への提出
- Authors: Xiang Wang, Baiteng Ma, Zhiwu Qing, Yongpeng Sang, Changxin Gao,
Shiwei Zhang, Nong Sang
- Abstract要約: 我々は,ActivityNet Challenge 2020において,時間的行動ローカライゼーション(検出)(タスク1)の課題に対する解決策を提示する。
本研究の目的は、興味あるアクションが発生する間隔を時間的に局所化し、長い未編集ビデオにおけるアクションカテゴリを予測することである。
この段階では、微調整ネットワークによって得られたビデオレベルの分類結果を組み合わせて、各提案のカテゴリを予測する。
- 参考スコア(独自算出の注目度): 42.77192990307131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we present our solution for the task of temporal action
localization (detection) (task 1) in ActivityNet Challenge 2020. The purpose of
this task is to temporally localize intervals where actions of interest occur
and predict the action categories in a long untrimmed video. Our solution
mainly includes three components: 1) feature encoding: we apply three kinds of
backbones, including TSN [7], Slowfast[3] and I3d[1], which are both pretrained
on Kinetics dataset[2]. Applying these models, we can extract snippet-level
video representations; 2) proposal generation: we choose BMN [5] as our
baseline, base on which we design a Cascade Boundary Refinement Network
(CBR-Net) to conduct proposal detection. The CBR-Net mainly contains two
modules: temporal feature encoding, which applies BiLSTM to encode long-term
temporal information; CBR module, which targets to refine the proposal
precision under different parameter settings; 3) action localization: In this
stage, we combine the video-level classification results obtained by the fine
tuning networks to predict the category of each proposal. Moreover, we also
apply to different ensemble strategies to improve the performance of the
designed solution, by which we achieve 42.788% on the testing set of
ActivityNet v1.3 dataset in terms of mean Average Precision metrics.
- Abstract(参考訳): 本報告では、時間的行動局所化(検出)課題に対する解決策を提示する(タスク)。
第1回ActivityNet Challenge 2020に参加。
このタスクの目的は、興味のあるアクションが発生するインターバルを一時的にローカライズし、長い未トリミングビデオでアクションカテゴリを予測することである。
私たちのソリューションは主に3つのコンポーネントを含んでいます。
1) 特徴エンコーディング: tsn[7], slowfast[3], i3d[1]を含む3種類のバックボーンを適用する。
これらのモデルを適用することで、スニペットレベルのビデオ表現を抽出できる。
2)提案生成:我々はベースラインとしてbmn[5]を選択し,提案検出を行うためにカスケード境界改良ネットワーク(cbr-net)を設計する。
CBR-Netは主に2つのモジュールを含む: 時間的特徴符号化、長期的時間的情報をエンコードするためのBiLSTM、異なるパラメータ設定下で提案精度を向上するためのCBRモジュール。
3) アクションローカライズ: この段階では, 微調整ネットワークによって得られた映像レベルの分類結果を組み合わせて, 各提案のカテゴリーを予測する。
さらに, 設計した解の性能を向上させるために異なるアンサンブル戦略を適用し, 平均精度指標を用いて, activitynet v1.3 データセットのテストセットで 42.788% を達成した。
関連論文リスト
- Unified Static and Dynamic Network: Efficient Temporal Filtering for Video Grounding [56.315932539150324]
ビデオとテキスト/オーディオクエリ間の意味的関連を学習するために,Unified Static and Dynamic Network (UniSDNet) を設計する。
我々のUniSDNetは、NLVG(Natural Language Video Grounding)タスクとSLVG(Spoke Language Video Grounding)タスクの両方に適用できます。
論文 参考訳(メタデータ) (2024-03-21T06:53:40Z) - HTNet: Anchor-free Temporal Action Localization with Hierarchical
Transformers [19.48000379201692]
時間的アクションローカライゼーション(TAL: Temporal Action Localization)は、ビデオ内のアクションの集合を識別するタスクである。
我々は,ビデオから開始時間,終了時間,クラス>三つ組のセットを予測する,HTNetと呼ばれる新しいアンカーフリーフレームワークを提案する。
本手法は,2つのTALベンチマークデータセット上で,正確なアクションインスタンスと最先端性能をローカライズする方法を実証する。
論文 参考訳(メタデータ) (2022-07-20T05:40:03Z) - Context-aware Proposal Network for Temporal Action Detection [47.72048484299649]
本報告では,CVPR-2022 AcitivityNet Challengeにおける時間的行動検出タスクの初当選ソリューションについて述べる。
このタスクは、アクションインスタンスの時間的境界を、長い未トリミングビデオの特定のクラスにローカライズすることを目的としている。
生成した提案にはリッチな文脈情報が含まれており、検出信頼度予測の恩恵を受ける可能性があると論じる。
論文 参考訳(メタデータ) (2022-06-18T01:43:43Z) - Proposal Relation Network for Temporal Action Detection [41.23726979184197]
このタスクの目的は、長い未編集ビデオの興味ある行動を特定し、特定することである。
本ソリューションはBMN上に構築され,1) Slowfast, CSN, ViViTによる動作分類と特徴符号化, 2)提案生成の3段階を含む。
私たちは、異なる設定で結果をアンサンブルし、テストセットで44.7%を達成する。これは、平均mAPの観点で、ActivityNet 2020のチャンピオンの結果を1.9%改善します。
論文 参考訳(メタデータ) (2021-06-20T02:51:34Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Complementary Boundary Generator with Scale-Invariant Relation Modeling
for Temporal Action Localization: Submission to ActivityNet Challenge 2020 [66.4527310659592]
本報告では,ActivityNet Challenge 2020 Task 1への提出時に使用したソリューションの概要を紹介する。
時間的行動ローカライゼーションタスクを2段階(すなわち提案生成と分類)に分離し,提案の多様性を高める。
提案手法は,課題テストセット上での平均mAPを用いて,時間的動作の局所化タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-20T04:35:40Z) - Temporal Fusion Network for Temporal Action Localization:Submission to
ActivityNet Challenge 2020 (Task E) [45.3218136336925]
本稿では,Activitynet Challenge 2020で開催されているHACSコンペティションで使用した時間的行動ローカライズ手法について分析する。
課題は、未トリミングビデオ中のアクションの開始時刻と終了時刻を特定し、アクションカテゴリを予測することである。
提案手法は,複数のモデルの結果を融合することにより,検証セットで40.55%,mAPで40.53%を獲得し,この課題においてランク1を達成する。
論文 参考訳(メタデータ) (2020-06-13T00:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。