論文の概要: Multi-modal Prompting for Low-Shot Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2303.11732v1
- Date: Tue, 21 Mar 2023 10:40:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 15:34:12.027944
- Title: Multi-modal Prompting for Low-Shot Temporal Action Localization
- Title(参考訳): 低ショット時間行動定位のためのマルチモーダルプロンプト
- Authors: Chen Ju, Zeqian Li, Peisen Zhao, Ya Zhang, Xiaopeng Zhang, Qi Tian,
Yanfeng Wang, Weidi Xie
- Abstract要約: 低ショット(ゼロショット・少数ショット)シナリオ下での時間的行動局所化の問題点を考察する。
クラスに依存しない2段階のアクションローカライズアーキテクチャをTransformerに導入し,その後にオープン語彙分類を行った。
- 参考スコア(独自算出の注目度): 95.19505874963751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider the problem of temporal action localization under
low-shot (zero-shot & few-shot) scenario, with the goal of detecting and
classifying the action instances from arbitrary categories within some
untrimmed videos, even not seen at training time. We adopt a Transformer-based
two-stage action localization architecture with class-agnostic action proposal,
followed by open-vocabulary classification. We make the following
contributions. First, to compensate image-text foundation models with temporal
motions, we improve category-agnostic action proposal by explicitly aligning
embeddings of optical flows, RGB and texts, which has largely been ignored in
existing low-shot methods. Second, to improve open-vocabulary action
classification, we construct classifiers with strong discriminative power,
i.e., avoid lexical ambiguities. To be specific, we propose to prompt the
pre-trained CLIP text encoder either with detailed action descriptions
(acquired from large-scale language models), or visually-conditioned
instance-specific prompt vectors. Third, we conduct thorough experiments and
ablation studies on THUMOS14 and ActivityNet1.3, demonstrating the superior
performance of our proposed model, outperforming existing state-of-the-art
approaches by one significant margin.
- Abstract(参考訳): 本稿では,低ショット(ゼロショット・少数ショット)シナリオ下での時間的アクションローカライゼーションの問題について考察し,トレーニング時に見えなくても,任意のカテゴリからアクションインスタンスを検出・分類することを目的とする。
我々は,クラス非依存なアクション提案とオープンボキャブラリー分類を備えたトランスフォーマベースの2段階のアクションローカライズアーキテクチャを採用する。
私たちは以下の貢献をします。
まず,画像テキストの基礎モデルを時間的動作で補償するために,既存の低ショット法では無視されている光学フロー,rgb,テキストの埋め込みを明示的に調整することにより,カテゴリ非依存なアクション提案を改善する。
第2に,オープンボキャブラリー行動分類を改善するために,識別力の強い分類器,すなわち語彙曖昧さを回避した。
具体的には、CLIPテキストエンコーダに詳細なアクション記述(大規模言語モデルからの取得)や、視覚条件のインスタンス固有プロンプトベクタを提案する。
第3に、THUMOS14とActivityNet1.3の徹底的な実験およびアブレーション研究を行い、提案モデルの優れた性能を示し、既存の最先端のアプローチを1つの大きなマージンで上回った。
関連論文リスト
- Open-Vocabulary Temporal Action Localization using Multimodal Guidance [67.09635853019005]
OVTALでは、すべてのカテゴリのトレーニングデータを明示的にキュレートすることなく、任意のアクションカテゴリをビデオで認識することができる。
この柔軟性は、トレーニング中に見られるアクションカテゴリだけでなく、推論で指定された新しいカテゴリも認識しなければならないため、大きな課題を引き起こす。
我々は,ActionFormerを拡張した新しいオープン語彙フレームワークであるOVFormerを紹介した。
論文 参考訳(メタデータ) (2024-06-21T18:00:05Z) - Proposal-Based Multiple Instance Learning for Weakly-Supervised Temporal
Action Localization [98.66318678030491]
微弱に監督された時間的行動ローカライゼーションは、トレーニング中にビデオレベルのカテゴリラベルのみを持つ未トリミングビデオのアクションをローカライズし、認識することを目的としている。
本稿では,提案手法をベースとしたP-MIL(Multiple Instance Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T02:48:04Z) - Knowledge Prompting for Few-shot Action Recognition [20.973999078271483]
本稿では,知識プロンプトと呼ばれるシンプルで効果的な手法を提案し,数発の分類のための強力な視覚言語モデルを提案する。
まず、アクションの大規模言語記述をテキスト提案として定義し、アクション知識ベースを構築する。
我々は、これらのテキスト提案をビデオフレームと共に事前学習された視覚言語モデルに入力し、各フレームに対する提案の一致するスコアを生成する。
6つのベンチマークデータセットに対する大規模な実験により、我々の手法は一般に最先端の性能を達成し、訓練のオーバーヘッドを0.001に減らした。
論文 参考訳(メタデータ) (2022-11-22T06:05:17Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Spatio-temporal Relation Modeling for Few-shot Action Recognition [100.3999454780478]
本稿では,高次時間表現を同時に学習しながら,クラス固有の特徴の識別性を向上する数ショットアクション認識フレームワークSTRMを提案する。
本手法は,本研究でもっとも優れた手法に比べて,分類精度が3.5%向上した。
論文 参考訳(メタデータ) (2021-12-09T18:59:14Z) - Complementary Boundary Generator with Scale-Invariant Relation Modeling
for Temporal Action Localization: Submission to ActivityNet Challenge 2020 [66.4527310659592]
本報告では,ActivityNet Challenge 2020 Task 1への提出時に使用したソリューションの概要を紹介する。
時間的行動ローカライゼーションタスクを2段階(すなわち提案生成と分類)に分離し,提案の多様性を高める。
提案手法は,課題テストセット上での平均mAPを用いて,時間的動作の局所化タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-20T04:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。