論文の概要: MGCA-Net: Multi-Grained Category-Aware Network for Open-Vocabulary Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2511.13039v1
- Date: Mon, 17 Nov 2025 06:40:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.78319
- Title: MGCA-Net: Multi-Grained Category-Aware Network for Open-Vocabulary Temporal Action Localization
- Title(参考訳): MGCA-Net:オープンボキャブラリ時間行動定位のための多言語カテゴリー認識ネットワーク
- Authors: Zhenying Fang, Richang Hong,
- Abstract要約: OV-TALは、ビデオ内の任意のアクションカテゴリのインスタンスを認識し、ローカライズすることを目的として、すべてのカテゴリのトレーニングデータを明示的にキュレートする。
既存の方法は、主に単一の粒度のアクションカテゴリを認識し、ベースと新規の両方のアクションカテゴリの認識精度を低下させる。
本稿では、ローカライザ、アクション存在予測器、従来の分類器、粗大な分類器からなる多機能カテゴリー認識ネットワーク(MGCA-Net)を提案する。
- 参考スコア(独自算出の注目度): 51.56484100374058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-Vocabulary Temporal Action Localization (OV-TAL) aims to recognize and localize instances of any desired action categories in videos without explicitly curating training data for all categories. Existing methods mostly recognize action categories at a single granularity, which degrades the recognition accuracy of both base and novel action categories. To address these issues, we propose a Multi-Grained Category-Aware Network (MGCA-Net) comprising a localizer, an action presence predictor, a conventional classifier, and a coarse-to-fine classifier. Specifically, the localizer localizes category-agnostic action proposals. For these action proposals, the action presence predictor estimates the probability that they belong to an action instance. At the same time, the conventional classifier predicts the probability of each action proposal over base action categories at the snippet granularity. Novel action categories are recognized by the coarse-to-fine classifier, which first identifies action presence at the video granularity. Finally, it assigns each action proposal to one category from the coarse categories at the proposal granularity. Through coarse-to-fine category awareness for novel actions and the conventional classifier's awareness of base actions, multi-grained category awareness is achieved, effectively enhancing localization performance. Comprehensive evaluations on the THUMOS'14 and ActivityNet-1.3 benchmarks demonstrate that our method achieves state-of-the-art performance. Furthermore, our MGCA-Net achieves state-of-the-art results under the Zero-Shot Temporal Action Localization setting.
- Abstract(参考訳): Open-Vocabulary Temporal Action Localization (OV-TAL)は、ビデオ内の任意のアクションカテゴリのインスタンスを認識し、ローカライズすることを目的としている。
既存の方法は、主に単一の粒度のアクションカテゴリを認識し、ベースと新規の両方のアクションカテゴリの認識精度を低下させる。
これらの問題に対処するために、ローカライザ、アクション存在予測器、従来の分類器、粗大な分類器からなる多機能カテゴリー認識ネットワーク(MGCA-Net)を提案する。
具体的には、ローカライザはカテゴリに依存しないアクション提案をローカライズする。
これらのアクション提案では、アクション存在予測器は、アクションインスタンスに属する確率を推定する。
同時に、従来の分類器は、スニペットの粒度において、基本アクションカテゴリよりも各アクション提案の確率を予測する。
新たなアクションカテゴリは、ビデオの粒度におけるアクションの存在を最初に識別する粗大な分類器によって認識される。
最後に、提案の粒度の粗いカテゴリから各アクション提案を1つのカテゴリに割り当てる。
新規行動に対する粗大なカテゴリー認識と従来の分類器による基本行動に対する認識を通じて、多義的なカテゴリ認識を実現し、ローカライゼーション性能を効果的に向上させる。
THUMOS'14とActivityNet-1.3ベンチマークの総合的な評価は、我々の手法が最先端の性能を達成することを示す。
さらに、MGCA-Netは、ゼロショットの時間的行動局所化設定の下で、最先端の結果を得る。
関連論文リスト
- Classification Matters: Improving Video Action Detection with Class-Specific Attention [61.14469113965433]
ビデオアクション検出(VAD)は、アクターを検出し、そのアクションをビデオで分類することを目的としている。
一般的な手法が、分類のための特徴をどう形成するかを分析し、アクター領域の優先順位付けを行う。
本稿では,アクターに対する偏見を減らし,各アクションクラスに関連する文脈に注意を払うことを提案する。
論文 参考訳(メタデータ) (2024-07-29T04:43:58Z) - Multi-modal Prompting for Low-Shot Temporal Action Localization [95.19505874963751]
低ショット(ゼロショット・少数ショット)シナリオ下での時間的行動局所化の問題点を考察する。
クラスに依存しない2段階のアクションローカライズアーキテクチャをTransformerに導入し,その後にオープン語彙分類を行った。
論文 参考訳(メタデータ) (2023-03-21T10:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。