論文の概要: Video-Specific Query-Key Attention Modeling for Weakly-Supervised
Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2305.04186v2
- Date: Wed, 26 Jul 2023 23:10:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 20:02:31.122095
- Title: Video-Specific Query-Key Attention Modeling for Weakly-Supervised
Temporal Action Localization
- Title(参考訳): 弱教師付き時間行動定位のためのビデオ特異的クエリーキー注意モデル
- Authors: Xijun Wang, Aggelos K. Katsaggelos
- Abstract要約: 弱いトリミングされた時間的アクションローカライゼーションは、ビデオレベルのアクションラベルのみを用いて、教師なしビデオ内のアクションインスタンスを特定し、ローカライズすることを目的としている。
本稿では,VQK-Netという名前のネットワークを提案する。ビデオ固有のクエリキーアテンションモデリングにより,各ビデオのアクションカテゴリ毎にユニークなクエリを学習する。
- 参考スコア(独自算出の注目度): 25.431013540560883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly-supervised temporal action localization aims to identify and localize
the action instances in the untrimmed videos with only video-level action
labels. When humans watch videos, we can adapt our abstract-level knowledge
about actions in different video scenarios and detect whether some actions are
occurring. In this paper, we mimic how humans do and bring a new perspective
for locating and identifying multiple actions in a video. We propose a network
named VQK-Net with a video-specific query-key attention modeling that learns a
unique query for each action category of each input video. The learned queries
not only contain the actions' knowledge features at the abstract level but also
have the ability to fit this knowledge into the target video scenario, and they
will be used to detect the presence of the corresponding action along the
temporal dimension. To better learn these action category queries, we exploit
not only the features of the current input video but also the correlation
between different videos through a novel video-specific action category query
learner worked with a query similarity loss. Finally, we conduct extensive
experiments on three commonly used datasets (THUMOS14, ActivityNet1.2, and
ActivityNet1.3) and achieve state-of-the-art performance.
- Abstract(参考訳): 弱教師付き時間的アクションローカライゼーションは、ビデオレベルのアクションラベルのみを用いて、未トリミングビデオ中のアクションインスタンスを特定し、ローカライズすることを目的としている。
人間がビデオを見るとき、さまざまなビデオシナリオにおけるアクションに関する抽象的な知識を適応させ、いくつかのアクションが起こっているかどうかを検出することができます。
本稿では,人間がどのように行動するかを模倣し,ビデオ中の複数のアクションを特定し識別するための新しい視点をもたらす。
本稿では,vqk-net というネットワークを提案し,各入力ビデオのアクションカテゴリ毎にユニークなクエリを学習する,ビデオ固有のクエリキー注意モデルを提案する。
学習されたクエリは、アクションの知識の特徴を抽象レベルで含むだけでなく、この知識を対象のビデオシナリオに適合させる能力も備えており、時間次元に沿って対応するアクションの存在を検出するために使用される。
これらのアクションカテゴリクエリをよりよく学習するために,従来の入力ビデオの特徴だけでなく,クエリ類似性を損なう新しいビデオ固有のアクションカテゴリクエリ学習者を通じて,異なるビデオ間の相関性を利用する。
最後に,一般的に使用される3つのデータセット(thumos14, activitynet1.2, activitynet1.3)について広範な実験を行い,最先端のパフォーマンスを実現する。
関連論文リスト
- MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z) - Enabling Weakly-Supervised Temporal Action Localization from On-Device
Learning of the Video Stream [5.215681853828831]
長編未編集のストリーミングビデオから学習するための効率的なビデオ学習手法を提案する。
私たちの知る限りでは、オンデバイスで長いビデオストリームから直接学習する最初の試みです。
論文 参考訳(メタデータ) (2022-08-25T13:41:03Z) - Learning to Refactor Action and Co-occurrence Features for Temporal
Action Localization [74.74339878286935]
アクション機能と共起機能は、しばしばビデオの実際のアクションコンテンツを支配します。
ビデオスニペット内でこれらの2種類の特徴を分離することで,新しい補助タスクを開発する。
まず、アクション内容を明示的に分解し、その共起機能を正規化します。
論文 参考訳(メタデータ) (2022-06-23T06:30:08Z) - Temporal Action Segmentation with High-level Complex Activity Labels [29.17792724210746]
我々は、高レベルなアクティビティラベルのみを入力とするアクションセグメントを学習する。
本稿では,ビデオ中の構成要素を自動検出する新しいアクション発見フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-15T09:50:42Z) - Few-Shot Action Localization without Knowing Boundaries [9.959844922120523]
対象のアクションの1/2のトリミング例がテスト時にのみ利用可能である場合,未トリミングビデオ中のアクションのローカライズを学習可能であることを示す。
ビデオのペア間の微細な類似パターンをモデル化した時間的類似度行列(TSM)を推定するネットワークを提案する。
提案手法は,最先端の完全教師付き,少数ショットの学習手法に匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2021-06-08T07:32:43Z) - Learning to Localize Actions from Moments [153.54638582696128]
本研究では,多種多様な行動カテゴリに対する行動ローカライゼーションを学習するトランスファーラーニングタイプの新しい設計を提案する。
本稿では、そのような設計をワンステージのアクションローカライズフレームワークに統合するアクション・ヘラルド・ネットワーク(AherNet)を提案する。
論文 参考訳(メタデータ) (2020-08-31T16:03:47Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z) - Localizing the Common Action Among a Few Videos [51.09824165433561]
本論文は,長編ビデオにおける動作の時間的範囲をローカライズする試みである。
サポートビデオからの表現を関連するクエリビデオセグメントと整合させることができる新しい3D畳み込みネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-08-13T11:31:23Z) - Revisiting Few-shot Activity Detection with Class Similarity Control [107.79338380065286]
本稿では,提案回帰に基づく数ショットの時間的活動検出のためのフレームワークを提案する。
我々のモデルはエンドツーエンドのトレーニングが可能で、数ショットのアクティビティと未トリミングなテストビデオのフレームレートの違いを考慮しており、さらに数ショットのサンプルの恩恵を受けることができる。
論文 参考訳(メタデータ) (2020-03-31T22:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。