論文の概要: Towards Completeness: A Generalizable Action Proposal Generator for Zero-Shot Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2408.13777v1
- Date: Sun, 25 Aug 2024 09:07:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 17:49:53.929807
- Title: Towards Completeness: A Generalizable Action Proposal Generator for Zero-Shot Temporal Action Localization
- Title(参考訳): 完全性に向けて:ゼロショット時空間行動定位のための一般化可能な行動提案生成器
- Authors: Jia-Run Du, Kun-Yu Lin, Jingke Meng, Wei-Shi Zheng,
- Abstract要約: Generalizable Action Proposal Generator (GAP)は、クエリベースのアーキテクチャで構築され、提案レベルの目的でトレーニングされる。
本アーキテクチャに基づいて,アクションのカテゴリに依存しない動的情報を強化するために,行動認識識別損失を提案する。
実験の結果,我々のGAPは2つのZSTALベンチマークで最先端の性能を達成できた。
- 参考スコア(独自算出の注目度): 31.82121743586165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To address the zero-shot temporal action localization (ZSTAL) task, existing works develop models that are generalizable to detect and classify actions from unseen categories. They typically develop a category-agnostic action detector and combine it with the Contrastive Language-Image Pre-training (CLIP) model to solve ZSTAL. However, these methods suffer from incomplete action proposals generated for \textit{unseen} categories, since they follow a frame-level prediction paradigm and require hand-crafted post-processing to generate action proposals. To address this problem, in this work, we propose a novel model named Generalizable Action Proposal generator (GAP), which can interface seamlessly with CLIP and generate action proposals in a holistic way. Our GAP is built in a query-based architecture and trained with a proposal-level objective, enabling it to estimate proposal completeness and eliminate the hand-crafted post-processing. Based on this architecture, we propose an Action-aware Discrimination loss to enhance the category-agnostic dynamic information of actions. Besides, we introduce a Static-Dynamic Rectifying module that incorporates the generalizable static information from CLIP to refine the predicted proposals, which improves proposal completeness in a generalizable manner. Our experiments show that our GAP achieves state-of-the-art performance on two challenging ZSTAL benchmarks, i.e., Thumos14 and ActivityNet1.3. Specifically, our model obtains significant performance improvement over previous works on the two benchmarks, i.e., +3.2% and +3.4% average mAP, respectively.
- Abstract(参考訳): ゼロショット時間的行動ローカライゼーション(ZSTAL)課題に対処するために、既存の研究は、目に見えないカテゴリからアクションを検出し分類できるモデルを開発する。
彼らは典型的にはカテゴリーに依存しない行動検知器を開発し、ZSTALを解くためにContrastive Language-Image Pre-Training (CLIP)モデルと組み合わせる。
しかしながら、これらの手法はフレームレベルの予測パラダイムに従い、アクション提案を生成するために手作りのポストプロセッシングを必要とするため、 \textit{unseen} カテゴリで生成される不完全なアクション提案に悩まされる。
この問題に対処するため,本研究では,CLIPとシームレスにインターフェースし,包括的にアクション提案を生成するGAP(Generalizable Action Proposal Generator)という新しいモデルを提案する。
我々のGAPは、クエリベースのアーキテクチャで構築され、提案レベルの目的で訓練されており、提案の完全性を推定し、手作りの事後処理を排除することができます。
本アーキテクチャに基づいて,アクションのカテゴリに依存しない動的情報を強化するために,行動認識識別損失を提案する。
さらに,CLIPからの一般化可能な静的情報を組み込んだ静的・動的整形モジュールを導入し,予測された提案を洗練し,一般化可能な提案完全性を向上させる。
我々の実験は、我々のGAPが2つの挑戦的ZSTALベンチマーク、すなわちThumos14とActivityNet1.3で最先端のパフォーマンスを達成することを示す。
具体的には,従来の2つのベンチマーク,すなわち平均mAPの3.2%,平均mAPの3.4%に対して,性能が大幅に向上した。
関連論文リスト
- STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。
既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。
本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文 参考訳(メタデータ) (2024-04-20T07:56:21Z) - ADM-Loc: Actionness Distribution Modeling for Point-supervised Temporal
Action Localization [31.314383098734922]
本稿では,1つのアクションインスタンスにアノテートされた1フレームのみをトレーニングセットにアノテートする点教師付き時間的行動検出の課題に対処する。
ADM-Loc(ADM-Loc)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-27T15:24:54Z) - Investigating the Limitation of CLIP Models: The Worst-Performing
Categories [53.360239882501325]
コントラスト言語-画像事前学習(CLIP)は、自然言語を視覚概念に統合する基礎モデルを提供する。
通常、十分に設計されたテキストプロンプトによって、多くの領域で満足な全体的な精度が達成できると期待されている。
しかし、最悪のカテゴリにおけるパフォーマンスは、全体的なパフォーマンスよりも著しく劣っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T05:37:33Z) - Multi-modal Prompting for Low-Shot Temporal Action Localization [95.19505874963751]
低ショット(ゼロショット・少数ショット)シナリオ下での時間的行動局所化の問題点を考察する。
クラスに依存しない2段階のアクションローカライズアーキテクチャをTransformerに導入し,その後にオープン語彙分類を行った。
論文 参考訳(メタデータ) (2023-03-21T10:40:13Z) - Temporal Action Detection with Global Segmentation Mask Learning [134.26292288193298]
既存の時間的行動検出(TAD)手法は、ビデオ毎に圧倒的に多くの提案を生成することに依存している。
我々は,グローバルマスク(TAGS)を用いた提案不要な時間行動検出モデルを提案する。
私たちの中核となる考え方は、アクションインスタンスのグローバルセグメンテーションマスクをフルビデオ長で共同で学習することです。
論文 参考訳(メタデータ) (2022-07-14T00:46:51Z) - Adaptive Proposal Generation Network for Temporal Sentence Localization
in Videos [58.83440885457272]
ビデオ(TSLV)における時間文ローカライゼーションの問題に対処する。
従来のメソッドは、事前に定義されたセグメントの提案でターゲットセグメントをローカライズするトップダウンフレームワークに従っている。
本稿では,効率を向上しつつセグメントレベルの相互作用を維持するための適応提案生成ネットワーク(APGN)を提案する。
論文 参考訳(メタデータ) (2021-09-14T02:02:36Z) - Temporal Action Localization Using Gated Recurrent Units [6.091096843566857]
本稿では, Gated Recurrent Unit (GRU) に基づく新しいネットワークと, TALタスクのための2つの新しい後処理手法を提案する。
具体的には、GRU-Splittedモデルと呼ばれる、GRUの出力層に対する新しい設計を提案する。
提案手法の性能を最先端手法と比較して評価する。
論文 参考訳(メタデータ) (2021-08-07T06:25:29Z) - Complementary Boundary Generator with Scale-Invariant Relation Modeling
for Temporal Action Localization: Submission to ActivityNet Challenge 2020 [66.4527310659592]
本報告では,ActivityNet Challenge 2020 Task 1への提出時に使用したソリューションの概要を紹介する。
時間的行動ローカライゼーションタスクを2段階(すなわち提案生成と分類)に分離し,提案の多様性を高める。
提案手法は,課題テストセット上での平均mAPを用いて,時間的動作の局所化タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-20T04:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。