論文の概要: Open-Vocabulary Temporal Action Localization using Multimodal Guidance
- arxiv url: http://arxiv.org/abs/2406.15556v1
- Date: Fri, 21 Jun 2024 18:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 23:34:50.818919
- Title: Open-Vocabulary Temporal Action Localization using Multimodal Guidance
- Title(参考訳): 複数モーダル誘導を用いたオープンボキャブラリ時間行動定位
- Authors: Akshita Gupta, Aditya Arora, Sanath Narayan, Salman Khan, Fahad Shahbaz Khan, Graham W. Taylor,
- Abstract要約: OVTALでは、すべてのカテゴリのトレーニングデータを明示的にキュレートすることなく、任意のアクションカテゴリをビデオで認識することができる。
この柔軟性は、トレーニング中に見られるアクションカテゴリだけでなく、推論で指定された新しいカテゴリも認識しなければならないため、大きな課題を引き起こす。
我々は,ActionFormerを拡張した新しいオープン語彙フレームワークであるOVFormerを紹介した。
- 参考スコア(独自算出の注目度): 67.09635853019005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-Vocabulary Temporal Action Localization (OVTAL) enables a model to recognize any desired action category in videos without the need to explicitly curate training data for all categories. However, this flexibility poses significant challenges, as the model must recognize not only the action categories seen during training but also novel categories specified at inference. Unlike standard temporal action localization, where training and test categories are predetermined, OVTAL requires understanding contextual cues that reveal the semantics of novel categories. To address these challenges, we introduce OVFormer, a novel open-vocabulary framework extending ActionFormer with three key contributions. First, we employ task-specific prompts as input to a large language model to obtain rich class-specific descriptions for action categories. Second, we introduce a cross-attention mechanism to learn the alignment between class representations and frame-level video features, facilitating the multimodal guided features. Third, we propose a two-stage training strategy which includes training with a larger vocabulary dataset and finetuning to downstream data to generalize to novel categories. OVFormer extends existing TAL methods to open-vocabulary settings. Comprehensive evaluations on the THUMOS14 and ActivityNet-1.3 benchmarks demonstrate the effectiveness of our method. Code and pretrained models will be publicly released.
- Abstract(参考訳): Open-Vocabulary Temporal Action Localization (OVTAL) は、ビデオ内の任意のアクションカテゴリを、すべてのカテゴリのトレーニングデータを明示的にキュレートすることなく認識することができる。
しかし、この柔軟性は、トレーニング中に見られるアクションカテゴリだけでなく、推論で指定された新しいカテゴリも認識しなければならないため、大きな課題を引き起こす。
トレーニングとテストのカテゴリが規定される標準的な時間的行動ローカライゼーションとは異なり、OVTALは、新しいカテゴリのセマンティクスを明らかにする文脈的手がかりを理解する必要がある。
これらの課題に対処するために,ActionFormerを3つの重要なコントリビューションで拡張する,新しいオープン語彙フレームワークであるOVFormerを紹介します。
まず,大規模言語モデルへの入力としてタスク固有のプロンプトを用いて,アクションカテゴリに対するリッチなクラス固有の記述を得る。
第2に,クラス表現とフレームレベルの映像特徴のアライメントを学習するクロスアテンション機構を導入し,マルチモーダルガイド機能を実現する。
第3に、より大規模な語彙データセットによるトレーニングと、新たなカテゴリに一般化するための下流データへの微調整を含む、2段階のトレーニング戦略を提案する。
OVFormerは既存のTALメソッドをオープン語彙設定に拡張する。
THUMOS14とActivityNet-1.3ベンチマークの総合評価により,本手法の有効性が示された。
コードと事前訓練されたモデルは公開される。
関連論文リスト
- LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction [63.668635390907575]
既存の手法は、視覚言語モデル(VLM)の頑健なオープン語彙認識機能を活用することにより、オープン語彙オブジェクト検出を強化している。
本稿では,視覚的概念間の関係を生かしたLanguage Model Instruction(LaMI)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-16T02:58:33Z) - Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - Exploration of visual prompt in Grounded pre-trained open-set detection [6.560519631555968]
いくつかのラベル付き画像から新しいカテゴリ知識を学習する新しい視覚的プロンプト手法を提案する。
本手法をODinWデータセット上で評価し,既存のプロンプト学習法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-12-14T11:52:35Z) - Multi-modal Prompting for Low-Shot Temporal Action Localization [95.19505874963751]
低ショット(ゼロショット・少数ショット)シナリオ下での時間的行動局所化の問題点を考察する。
クラスに依存しない2段階のアクションローカライズアーキテクチャをTransformerに導入し,その後にオープン語彙分類を行った。
論文 参考訳(メタデータ) (2023-03-21T10:40:13Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - A Simple Meta-learning Paradigm for Zero-shot Intent Classification with
Mixture Attention Mechanism [17.228616743739412]
ゼロショット意図分類のためのシンプルなメタ学習パラダイムを提案する。
発話のセマンティック表現を改善するために,新しい混合アテンション機構を導入する。
そこで我々は, メタ学習戦略を用いて, ゼロショット意図分類を改定する。
論文 参考訳(メタデータ) (2022-06-05T13:37:51Z) - Weakly-Supervised Multi-Level Attentional Reconstruction Network for
Grounding Textual Queries in Videos [73.4504252917816]
ビデオ中のテキストクエリを時間的にグラウンド化するタスクは、与えられたクエリに意味的に対応する1つのビデオセグメントをローカライズすることである。
既存のアプローチのほとんどは、トレーニングのためのセグメント-セマンスペア(時間アノテーション)に依存しており、通常は現実のシナリオでは利用できない。
トレーニング段階では,映像文ペアのみに依存するマルチレベル注意再構築ネットワーク(MARN)と呼ばれる,効果的な弱教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-03-16T07:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。