論文の概要: Few-Shot Temporal Action Localization with Query Adaptive Transformer
- arxiv url: http://arxiv.org/abs/2110.10552v1
- Date: Wed, 20 Oct 2021 13:18:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-23 19:31:35.324429
- Title: Few-Shot Temporal Action Localization with Query Adaptive Transformer
- Title(参考訳): クエリアダプティブトランスフォーマーによる短時間時間動作定位
- Authors: Sauradip Nag, Xiatian Zhu and Tao Xiang
- Abstract要約: TALの作品は、セグメントレベルのアノテーションを徹底した、多数のトレーニングビデオに依存している。
Few-shot TALは、モデルを1つのビデオで表される新しいクラスに適応させることを目的としている。
- 参考スコア(独自算出の注目度): 105.84328176530303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing temporal action localization (TAL) works rely on a large number of
training videos with exhaustive segment-level annotation, preventing them from
scaling to new classes. As a solution to this problem, few-shot TAL (FS-TAL)
aims to adapt a model to a new class represented by as few as a single video.
Exiting FS-TAL methods assume trimmed training videos for new classes. However,
this setting is not only unnatural actions are typically captured in untrimmed
videos, but also ignores background video segments containing vital contextual
cues for foreground action segmentation. In this work, we first propose a new
FS-TAL setting by proposing to use untrimmed training videos. Further, a novel
FS-TAL model is proposed which maximizes the knowledge transfer from training
classes whilst enabling the model to be dynamically adapted to both the new
class and each video of that class simultaneously. This is achieved by
introducing a query adaptive Transformer in the model. Extensive experiments on
two action localization benchmarks demonstrate that our method can outperform
all the state of the art alternatives significantly in both single-domain and
cross-domain scenarios. The source code can be found in
https://github.com/sauradip/fewshotQAT
- Abstract(参考訳): 既存の時間的アクションローカライゼーション(TAL)の作業は、セグメントレベルのアノテーションを徹底した多数のトレーニングビデオに依存しており、新しいクラスへのスケーリングを妨げている。
この問題の解決策として、FS-TAL(英語版)は、モデルを単一のビデオで表される新しいクラスに適応することを目的としている。
FS-TALメソッドの出力は、新しいクラスのトレーニングビデオをトリミングする。
しかし、この設定は、通常、不自然なアクションがトリミングされていないビデオでキャプチャされるだけでなく、前景アクションセグメンテーションのための重要なコンテキストを含む背景ビデオセグメントも無視する。
本研究では,まず,未編集のトレーニングビデオを用いたFS-TAL設定を提案する。
さらに,学習クラスからの知識伝達を最大化しつつ,新たなクラスと各クラスのビデオに動的に適応できる新しいFS-TALモデルを提案する。
これは、モデルにクエリ適応トランスフォーマーを導入することで実現される。
2つのアクションローカライゼーションベンチマークに関する広範囲な実験は、単一ドメインとクロスドメインのシナリオの両方において、この手法がアートの代替案の全ての状態を著しく上回ることを証明している。
ソースコードはhttps://github.com/sauradip/fewshotqatにある。
関連論文リスト
- Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文 参考訳(メタデータ) (2023-08-21T22:15:20Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Enabling Weakly-Supervised Temporal Action Localization from On-Device
Learning of the Video Stream [5.215681853828831]
長編未編集のストリーミングビデオから学習するための効率的なビデオ学習手法を提案する。
私たちの知る限りでは、オンデバイスで長いビデオストリームから直接学習する最初の試みです。
論文 参考訳(メタデータ) (2022-08-25T13:41:03Z) - Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文 参考訳(メタデータ) (2022-03-25T12:13:43Z) - Learning to Localize Actions from Moments [153.54638582696128]
本研究では,多種多様な行動カテゴリに対する行動ローカライゼーションを学習するトランスファーラーニングタイプの新しい設計を提案する。
本稿では、そのような設計をワンステージのアクションローカライズフレームワークに統合するアクション・ヘラルド・ネットワーク(AherNet)を提案する。
論文 参考訳(メタデータ) (2020-08-31T16:03:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。