論文の概要: Transferable Knowledge-Based Multi-Granularity Aggregation Network for
Temporal Action Localization: Submission to ActivityNet Challenge 2021
- arxiv url: http://arxiv.org/abs/2107.12618v1
- Date: Tue, 27 Jul 2021 06:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 14:41:54.477645
- Title: Transferable Knowledge-Based Multi-Granularity Aggregation Network for
Temporal Action Localization: Submission to ActivityNet Challenge 2021
- Title(参考訳): 時間的行動局所化のためのトランスファー可能な知識に基づく多粒度アグリゲーションネットワーク:activitynet challenge 2021への提出
- Authors: Haisheng Su, Peiqin Zhuang, Yukun Li, Dongliang Wang, Weihao Gan, Wei
Wu, Yu Qiao
- Abstract要約: 本報告では,2021 HACS 時空間行動ローカライゼーションチャレンジの提出に使用したソリューションの概要について述べる。
我々は、TCANet(Temporal Context Aggregation Network)を用いて、高品質なアクション提案を生成する。
また、トリミングされたビデオから未トリミングされたビデオに知識を移すための追加モジュールも採用しています。
提案手法は, 教師付きおよび弱教師付き時間的行動局所化トラックを用いて, 39.91 と 29.78 の平均 mAP をそれぞれ達成する。
- 参考スコア(独自算出の注目度): 33.840281113206444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report presents an overview of our solution used in the
submission to 2021 HACS Temporal Action Localization Challenge on both
Supervised Learning Track and Weakly-Supervised Learning Track. Temporal Action
Localization (TAL) requires to not only precisely locate the temporal
boundaries of action instances, but also accurately classify the untrimmed
videos into specific categories. However, Weakly-Supervised TAL indicates
locating the action instances using only video-level class labels. In this
paper, to train a supervised temporal action localizer, we adopt Temporal
Context Aggregation Network (TCANet) to generate high-quality action proposals
through ``local and global" temporal context aggregation and complementary as
well as progressive boundary refinement. As for the WSTAL, a novel framework is
proposed to handle the poor quality of CAS generated by simple classification
network, which can only focus on local discriminative parts, rather than locate
the entire interval of target actions. Further inspired by the transfer
learning method, we also adopt an additional module to transfer the knowledge
from trimmed videos (HACS Clips dataset) to untrimmed videos (HACS Segments
dataset), aiming at promoting the classification performance on untrimmed
videos. Finally, we employ a boundary regression module embedded with
Outer-Inner-Contrastive (OIC) loss to automatically predict the boundaries
based on the enhanced CAS. Our proposed scheme achieves 39.91 and 29.78 average
mAP on the challenge testing set of supervised and weakly-supervised temporal
action localization track respectively.
- Abstract(参考訳): 本報告では,教師付き学習トラックと弱教師付き学習トラックの両方における2021 hacs時間的行動局所化課題の提示に用いたソリューションの概要を示す。
時間的アクションローカライゼーション(TAL)は、アクションインスタンスの時間的境界を正確に特定するだけでなく、未編集のビデオを特定のカテゴリに正確に分類する必要がある。
しかし、Weakly-Supervised TALは、ビデオレベルのクラスラベルのみを使用してアクションインスタンスの位置を示す。
本稿では,時間的行動ローカライザを訓練するために,時間的文脈アグリゲーションネットワーク(TCANet)を採用し,「局所的かつグローバル的」時間的文脈アグリゲーションと補完的手法を用いて高品質な行動提案を生成する。
WSTALに関しては、単純な分類ネットワークによって生成されるCASの質の低さに対処する新しいフレームワークが提案されている。
転送学習法にさらに着想を得て,トリミングビデオ(HACS Clips データセット)から未トリミングビデオ(HACS Segments データセット)へ知識を転送するモジュールも導入し,未トリミングビデオの分類性能の向上を目指す。
最後に、拡張CASに基づいて境界を自動的に予測するために、Outer-Inner-Contrastive (OIC)損失を埋め込んだ境界回帰モジュールを用いる。
提案手法はそれぞれ39.91 および 29.78 平均マップを教師付きおよび弱教師付き時間的行動定位トラックのチャレンジテストセットで達成した。
関連論文リスト
- Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - Cross-Video Contextual Knowledge Exploration and Exploitation for
Ambiguity Reduction in Weakly Supervised Temporal Action Localization [23.94629999419033]
弱教師付き時間的行動ローカライゼーション(WSTAL)は、ビデオレベルのラベルを用いて、未トリミングビデオ中のアクションをローカライズすることを目的としている。
私たちの研究は、データセット内のビデオ間のコンテキスト知識を探索し、活用することで、これを新しい視点から解決します。
我々の手法は最先端の手法よりも優れており、他のWSTAL手法に簡単に接続できる。
論文 参考訳(メタデータ) (2023-08-24T07:19:59Z) - SRF-Net: Selective Receptive Field Network for Anchor-Free Temporal
Action Detection [32.159784061961886]
時間的行動検出(TAD: Temporal Action Detection)は、ビデオ中の人間の行動の時間的局所化と認識を目的とした課題である。
現在の主流のワンステージTADは、事前に定義されたアンカーに依存するアクション提案をローカライズし、分類する。
SRF-Net(Selective Receptive Field Network)と呼ばれる新しいTADモデルを開発した。
論文 参考訳(メタデータ) (2021-06-29T11:29:16Z) - Weakly-Supervised Temporal Action Localization Through Local-Global
Background Modeling [30.104982661371164]
上記の問題に対処するためにBaSNetをベースとした2021年のHACS Challenge - 弱々しい教師付き学習追跡ソリューションを提示する。
具体的には、まず、事前訓練されたCSN、Slowfast、TDN、ViViTを特徴抽出器として採用し、特徴系列を得る。
そこで提案するローカル・グローバル・バックグラウンド・モデリング・ネットワーク(LGBM-Net)は,ビデオレベルラベルのみを用いてインスタンスのローカライズを訓練する。
論文 参考訳(メタデータ) (2021-06-20T02:58:45Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Boundary-sensitive Pre-training for Temporal Localization in Videos [124.40788524169668]
本稿では,時間的局所化のためのモデル事前学習について,新しい境界感性プレテキスト(BSP)タスクを導入して検討する。
合成された境界により、BSPは境界型を分類することで簡単に実行できる。
大規模な実験により、提案したBSPは既存の行動分類に基づく事前学習法よりも優れ、相補的であることが示された。
論文 参考訳(メタデータ) (2020-11-21T17:46:24Z) - Two-Stream Consensus Network for Weakly-Supervised Temporal Action
Localization [94.37084866660238]
本稿では,これらの課題を同時に解決するためのTwo-Stream Consensus Network(TSCN)を提案する。
提案したTSCNは,フレームレベルの疑似地上真実を反復的に更新する反復的精錬訓練手法を特徴とする。
本稿では,2進選択のように振る舞うように注意を喚起し,アクションインスタンス境界の正確な局所化を促進するために,新たな注意正規化損失を提案する。
論文 参考訳(メタデータ) (2020-10-22T10:53:32Z) - Complementary Boundary Generator with Scale-Invariant Relation Modeling
for Temporal Action Localization: Submission to ActivityNet Challenge 2020 [66.4527310659592]
本報告では,ActivityNet Challenge 2020 Task 1への提出時に使用したソリューションの概要を紹介する。
時間的行動ローカライゼーションタスクを2段階(すなわち提案生成と分類)に分離し,提案の多様性を高める。
提案手法は,課題テストセット上での平均mAPを用いて,時間的動作の局所化タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-20T04:35:40Z) - Temporal Fusion Network for Temporal Action Localization:Submission to
ActivityNet Challenge 2020 (Task E) [45.3218136336925]
本稿では,Activitynet Challenge 2020で開催されているHACSコンペティションで使用した時間的行動ローカライズ手法について分析する。
課題は、未トリミングビデオ中のアクションの開始時刻と終了時刻を特定し、アクションカテゴリを予測することである。
提案手法は,複数のモデルの結果を融合することにより,検証セットで40.55%,mAPで40.53%を獲得し,この課題においてランク1を達成する。
論文 参考訳(メタデータ) (2020-06-13T00:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。