論文の概要: Semi-Supervised Temporal Action Detection with Proposal-Free Masking
- arxiv url: http://arxiv.org/abs/2207.07059v1
- Date: Thu, 14 Jul 2022 16:58:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-15 12:36:46.794535
- Title: Semi-Supervised Temporal Action Detection with Proposal-Free Masking
- Title(参考訳): 提案なしマスキングによる半教師付き時空間動作検出
- Authors: Sauradip Nag, Xiatian Zhu, Yi-Zhe Song and Tao Xiang
- Abstract要約: PropOsal-free Temporal mask (SPOT) に基づく新しい半教師付き時間行動検出モデルを提案する。
SPOTは最先端の代替品よりも優れている。
- 参考スコア(独自算出の注目度): 134.26292288193298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing temporal action detection (TAD) methods rely on a large number of
training data with segment-level annotations. Collecting and annotating such a
training set is thus highly expensive and unscalable. Semi-supervised TAD
(SS-TAD) alleviates this problem by leveraging unlabeled videos freely
available at scale. However, SS-TAD is also a much more challenging problem
than supervised TAD, and consequently much under-studied. Prior SS-TAD methods
directly combine an existing proposal-based TAD method and a SSL method. Due to
their sequential localization (e.g, proposal generation) and classification
design, they are prone to proposal error propagation. To overcome this
limitation, in this work we propose a novel Semi-supervised Temporal action
detection model based on PropOsal-free Temporal mask (SPOT) with a parallel
localization (mask generation) and classification architecture. Such a novel
design effectively eliminates the dependence between localization and
classification by cutting off the route for error propagation in-between. We
further introduce an interaction mechanism between classification and
localization for prediction refinement, and a new pretext task for
self-supervised model pre-training. Extensive experiments on two standard
benchmarks show that our SPOT outperforms state-of-the-art alternatives, often
by a large margin. The PyTorch implementation of SPOT is available at
https://github.com/sauradip/SPOT
- Abstract(参考訳): 既存の時間的行動検出(TAD)手法は、セグメントレベルのアノテーションを持つ多数のトレーニングデータに依存している。
このようなトレーニングセットの収集と注釈付けは高価であり、スケールできない。
半教師付きTAD(SS-TAD)は、大規模に利用可能なラベルなしビデオを活用することでこの問題を軽減する。
しかし、ss-tadは監督されたtadよりも難しい問題であり、その結果、あまり研究されていない。
従来のSS-TADメソッドは、既存の提案ベースのTADメソッドとSSLメソッドを直接結合する。
シーケンシャルなローカライゼーション(例えば、提案生成)と分類設計のため、エラーの伝播を提案する傾向がある。
この制限を克服するために,提案フリーな時空間マスク(spot)に基づく半教師付き時空間動作検出モデルを提案し,並列局在化(mask生成)と分類アーキテクチャを提案する。
このような斬新な設計は, 経路を切断することで, 局所化と分類の依存性を効果的に排除する。
さらに,予測精度向上のための分類と局所化の相互作用機構と,自己教師付きモデル事前学習のための新しい前文課題について紹介する。
2つの標準ベンチマークでの大規模な実験は、SPOTが最先端の代替品よりも優れていることを示している。
SPOTのPyTorch実装はhttps://github.com/sauradip/SPOTで公開されている。
関連論文リスト
- Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - Zero-Shot Temporal Action Detection via Vision-Language Prompting [134.26292288193298]
視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。
我々のモデルは最先端の代替品を著しく上回っている。
我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-07-17T13:59:46Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - SRF-Net: Selective Receptive Field Network for Anchor-Free Temporal
Action Detection [32.159784061961886]
時間的行動検出(TAD: Temporal Action Detection)は、ビデオ中の人間の行動の時間的局所化と認識を目的とした課題である。
現在の主流のワンステージTADは、事前に定義されたアンカーに依存するアクション提案をローカライズし、分類する。
SRF-Net(Selective Receptive Field Network)と呼ばれる新しいTADモデルを開発した。
論文 参考訳(メタデータ) (2021-06-29T11:29:16Z) - BSN++: Complementary Boundary Regressor with Scale-Balanced Relation
Modeling for Temporal Action Proposal Generation [85.13713217986738]
我々は,時間的提案生成のための補完的境界回帰器と関係モデリングを利用する新しいフレームワークであるBSN++を提案する。
当然のことながら、提案されたBSN++は、時間的アクションローカライゼーションタスクに関するCVPR19 - ActivityNetのリーダーボードで1位にランクインした。
論文 参考訳(メタデータ) (2020-09-15T07:08:59Z) - Simple and Effective Prevention of Mode Collapse in Deep One-Class
Classification [93.2334223970488]
深部SVDDにおける超球崩壊を防止するための2つの正則化器を提案する。
第1の正則化器は、標準のクロスエントロピー損失によるランダムノイズの注入に基づいている。
第2の正規化器は、小さすぎるとミニバッチ分散をペナライズする。
論文 参考訳(メタデータ) (2020-01-24T03:44:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。