論文の概要: Forcing the Whole Video as Background: An Adversarial Learning Strategy
for Weakly Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2207.06659v1
- Date: Thu, 14 Jul 2022 05:13:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-15 13:32:49.605474
- Title: Forcing the Whole Video as Background: An Adversarial Learning Strategy
for Weakly Temporal Action Localization
- Title(参考訳): 背景として全動画を強制する:弱い時間的行動局所化のための敵対的学習戦略
- Authors: Ziqiang Li, Yongxin Ge, Jiaruo Yu, and Zhongming Chen
- Abstract要約: 疑似バックグラウンドスニペットのマイニングの限界を打破する逆学習戦略を提案する。
親和性スニペットの時間的関係を構築するために,新しい時間的拡張ネットワークが設計されている。
- 参考スコア(独自算出の注目度): 6.919243767837342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With video-level labels, weakly supervised temporal action localization
(WTAL) applies a localization-by-classification paradigm to detect and classify
the action in untrimmed videos. Due to the characteristic of classification,
class-specific background snippets are inevitably mis-activated to improve the
discriminability of the classifier in WTAL. To alleviate the disturbance of
background, existing methods try to enlarge the discrepancy between action and
background through modeling background snippets with pseudo-snippet-level
annotations, which largely rely on artificial hypotheticals. Distinct from the
previous works, we present an adversarial learning strategy to break the
limitation of mining pseudo background snippets. Concretely, the background
classification loss forces the whole video to be regarded as the background by
a background gradient reinforcement strategy, confusing the recognition model.
Reversely, the foreground(action) loss guides the model to focus on action
snippets under such conditions. As a result, competition between the two
classification losses drives the model to boost its ability for action
modeling. Simultaneously, a novel temporal enhancement network is designed to
facilitate the model to construct temporal relation of affinity snippets based
on the proposed strategy, for further improving the performance of action
localization. Finally, extensive experiments conducted on THUMOS14 and
ActivityNet1.2 demonstrate the effectiveness of the proposed method.
- Abstract(参考訳): ビデオレベルラベルでは、弱教師付き時間的行動定位(wtal)は、未トリミングビデオにおける行動の検出と分類にローカライズ・バイ・クラス化パラダイムを適用している。
分類の特徴から、クラス固有の背景スニペットは必然的に不活性化され、wtalの分類器の識別性が向上する。
背景の乱れを軽減するため、既存の手法は、擬似スニペットレベルのアノテーションで背景スニペットをモデル化することで、動作と背景の相違を拡大しようとする。
先行研究とは別として,疑似背景スニペットのマイニングの限界を破る逆学習戦略を提案する。
具体的には、背景分類の損失により、映像全体を背景勾配強化戦略によって背景と見なすことができ、認識モデルを混乱させる。
逆に、前景(アクション)損失は、そのような条件下でのアクションスニペットに集中するようにモデルを導く。
結果として、2つの分類損失の競合は、アクションモデリングの能力を高めるためにモデルを駆動する。
同時に,提案手法に基づく親和性スニペットの時間的関係の構築を容易にし,アクションローカライゼーションの性能を向上させるために,新しい時間的拡張ネットワークを設計する。
最後にthums14とactivitynet1.2に関する広範な実験を行い,提案手法の有効性を実証した。
関連論文リスト
- Bayesian Learning-driven Prototypical Contrastive Loss for Class-Incremental Learning [42.14439854721613]
本稿では,クラス増分学習シナリオに特化して,ベイズ学習駆動型コントラスト損失(BLCL)を持つプロトタイプネットワークを提案する。
提案手法は,ベイズ学習手法を用いて,クロスエントロピーとコントラスト損失関数のバランスを動的に適用する。
論文 参考訳(メタデータ) (2024-05-17T19:49:02Z) - SOAR: Scene-debiasing Open-set Action Recognition [81.8198917049666]
本稿では、対向的なシーン再構成モジュールと適応的な対向的なシーン分類モジュールを備えた、Scene-debiasing Open-set Action Recognition (SOAR)を提案する。
前者は、デコーダが映像特徴の映像背景を再構成することを防止し、特徴学習における背景情報を低減する。
後者は、アクションフォアグラウンドに特に重点を置いて、映像の特徴を与えられたシーンタイプの分類を混乱させることを目的としており、シーン不変情報を学習するのに役立つ。
論文 参考訳(メタデータ) (2023-09-03T20:20:48Z) - Multi-modal Prompting for Low-Shot Temporal Action Localization [95.19505874963751]
低ショット(ゼロショット・少数ショット)シナリオ下での時間的行動局所化の問題点を考察する。
クラスに依存しない2段階のアクションローカライズアーキテクチャをTransformerに導入し,その後にオープン語彙分類を行った。
論文 参考訳(メタデータ) (2023-03-21T10:40:13Z) - Dilation-Erosion for Single-Frame Supervised Temporal Action
Localization [28.945067347089825]
本稿では,Snippet分類モデルとDilation-Erosionモジュールについて述べる。
Dilation-Erosionモジュールは、擬似スニペットレベルの地上構造、硬い背景、明らかな背景をマイニングする。
THUMOS14とActivityNet 1.2の実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-12-13T03:05:13Z) - Zero-Shot Temporal Action Detection via Vision-Language Prompting [134.26292288193298]
視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。
我々のモデルは最先端の代替品を著しく上回っている。
我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-07-17T13:59:46Z) - Background-Click Supervision for Temporal Action Localization [82.4203995101082]
時間的行動ローカライゼーションの弱さは、ビデオレベルのラベルからインスタンスレベルのアクションパターンを学習することを目的としており、アクションコンテキストの混乱が大きな課題である。
最近の作業の1つは、アクションクリックの監視フレームワークを構築している。
同様のアノテーションのコストを必要とするが、従来の弱い教師付き手法と比較して、着実にローカライズ性能を向上させることができる。
本稿では,既存の手法の性能ボトルネックが背景誤差に起因していることを明らかにすることにより,より強力なアクションローカライザを,アクションフレームではなく,バックグラウンドビデオフレーム上のラベルでトレーニングできることを見出した。
論文 参考訳(メタデータ) (2021-11-24T12:02:52Z) - MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。
本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。
特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文 参考訳(メタデータ) (2021-07-23T06:57:08Z) - D2-Net: Weakly-Supervised Action Localization via Discriminative
Embeddings and Denoised Activations [172.05295776806773]
本研究では,D2-Net と呼ばれる時間的行動ローカリゼーションフレームワークを提案する。
私たちの主な貢献は、潜伏埋め込みの識別性を共同で向上する新しい損失製剤の導入です。
我々のD2-Netは、既存の2つのデータセットの手法と比較して好意的に機能する。
論文 参考訳(メタデータ) (2020-12-11T16:01:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。