論文の概要: Zero-Shot Temporal Action Detection via Vision-Language Prompting
- arxiv url: http://arxiv.org/abs/2207.08184v1
- Date: Sun, 17 Jul 2022 13:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 14:08:43.985862
- Title: Zero-Shot Temporal Action Detection via Vision-Language Prompting
- Title(参考訳): ビジョンランゲージ・プロンプティングによるゼロショット時間行動検出
- Authors: Sauradip Nag, Xiatian Zhu, Yi-Zhe Song and Tao Xiang
- Abstract要約: 視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。
我々のモデルは最先端の代替品を著しく上回っている。
我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
- 参考スコア(独自算出の注目度): 134.26292288193298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing temporal action detection (TAD) methods rely on large training data
including segment-level annotations, limited to recognizing previously seen
classes alone during inference. Collecting and annotating a large training set
for each class of interest is costly and hence unscalable. Zero-shot TAD
(ZS-TAD) resolves this obstacle by enabling a pre-trained model to recognize
any unseen action classes. Meanwhile, ZS-TAD is also much more challenging with
significantly less investigation. Inspired by the success of zero-shot image
classification aided by vision-language (ViL) models such as CLIP, we aim to
tackle the more complex TAD task. An intuitive method is to integrate an
off-the-shelf proposal detector with CLIP style classification. However, due to
the sequential localization (e.g, proposal generation) and classification
design, it is prone to localization error propagation. To overcome this
problem, in this paper we propose a novel zero-Shot Temporal Action detection
model via Vision-LanguagE prompting (STALE). Such a novel design effectively
eliminates the dependence between localization and classification by breaking
the route for error propagation in-between. We further introduce an interaction
mechanism between classification and localization for improved optimization.
Extensive experiments on standard ZS-TAD video benchmarks show that our STALE
significantly outperforms state-of-the-art alternatives. Besides, our model
also yields superior results on supervised TAD over recent strong competitors.
The PyTorch implementation of STALE is available at
https://github.com/sauradip/STALE.
- Abstract(参考訳): 既存のtemporal action detection(tad)メソッドは、セグメントレベルのアノテーションを含む大きなトレーニングデータに依存している。
興味のある各クラスに対して大きなトレーニングセットを収集し、アノテートすることは費用がかかります。
Zero-shot TAD (ZS-TAD) は、事前訓練されたモデルが目に見えないアクションクラスを認識できるようにすることで、この障害を解決する。
一方、ZS-TADはより困難であり、調査は極めて少ない。
CLIPのような視覚言語(ViL)モデルによるゼロショット画像分類の成功に触発されて、我々はより複雑なTAD課題に取り組むことを目指している。
直感的な方法は、CLIPスタイルの分類とオフザシェルフ提案検出器を統合することである。
しかし,逐次的局所化(提案生成など)と分類設計により,局所化誤差の伝播が容易である。
そこで本研究では,視覚言語プロンプト(STALE)を用いたゼロショット時間行動検出モデルを提案する。
このような斬新な設計は, 誤差伝搬経路を断ち切ることで, 局所化と分類の依存性を効果的に排除する。
さらに,最適化のための分類と局所化の相互作用機構についても紹介する。
標準のZS-TADビデオベンチマークによる大規模な実験により、私たちのSTALEは最先端の代替品よりも大幅に優れています。
さらに我々のモデルは、最近の強力な競争相手よりも、監督されたtadに優れた結果をもたらします。
STALEのPyTorch実装はhttps://github.com/sauradip/STALEで公開されている。
関連論文リスト
- ZEETAD: Adapting Pretrained Vision-Language Model for Zero-Shot
End-to-End Temporal Action Detection [10.012716326383567]
時間的行動検出(TAD)は、未トリミングビデオ内のアクションインスタンスのローカライズと分類を含む。
ZEETADには2つのモジュールがあり、双対局在化とゼロショット提案分類という2つのモジュールがある。
軽量なアダプタで冷凍したCLIPエンコーダを最小限に更新することで、未確認クラスの識別能力を向上する。
論文 参考訳(メタデータ) (2023-11-01T00:17:37Z) - Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。
この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。
モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2022-11-27T19:50:37Z) - Few-shot Object Detection with Refined Contrastive Learning [4.520231308678286]
Refined Contrastive Learning (FSRC) を用いた新しい複数ショットオブジェクト検出法を提案する。
コンフリブルクラスを含む新しいクラスからResemblance Groupを見つけるために、事前決定コンポーネントが導入された。
RCLはクラス間の距離を増やすために、このクラスのグループで指摘される。
論文 参考訳(メタデータ) (2022-11-24T09:34:20Z) - Fast Hierarchical Learning for Few-Shot Object Detection [57.024072600597464]
転送学習アプローチは、最近、数ショット検出タスクで有望な結果を得た。
これらのアプローチは、ベース検出器の微調整による破滅的な忘れ込みの問題に悩まされる。
この作業における上記の問題に対処する。
論文 参考訳(メタデータ) (2022-10-10T20:31:19Z) - Active Learning with Effective Scoring Functions for Semi-Supervised
Temporal Action Localization [15.031156121516211]
本稿では,半教師型talという,滅多に研究されていない実践的な課題に焦点を当てる。
本稿では,AL-STALという効果的な能動学習手法を提案する。
実験の結果,AL-STALは既存の競争相手よりも優れ,完全教師付き学習と比較して満足度が高いことがわかった。
論文 参考訳(メタデータ) (2022-08-31T13:39:38Z) - Semi-Supervised Temporal Action Detection with Proposal-Free Masking [134.26292288193298]
PropOsal-free Temporal mask (SPOT) に基づく新しい半教師付き時間行動検出モデルを提案する。
SPOTは最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2022-07-14T16:58:47Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。