論文の概要: Weakly-Supervised Temporal Action Localization with Bidirectional
Semantic Consistency Constraint
- arxiv url: http://arxiv.org/abs/2304.12616v1
- Date: Tue, 25 Apr 2023 07:20:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 21:40:52.756842
- Title: Weakly-Supervised Temporal Action Localization with Bidirectional
Semantic Consistency Constraint
- Title(参考訳): 双方向セマンティック整合性制約を用いた弱覚的時間的行動定位
- Authors: Guozhang Li, De Cheng, Xinpeng Ding, Nannan Wang, Jie Li, Xinbo Gao
- Abstract要約: WTAL(Weakly Supervised Temporal Action Localization)は、ビデオの時間的境界を分類し、ローカライズすることを目的としている。
本研究では,双方向意味整合性制約 (Bi-SCC) という単純な手法を提案する。
実験結果から,THUMOS14とActivityNetの最先端手法よりも優れた結果が得られた。
- 参考スコア(独自算出の注目度): 83.36913240873236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly Supervised Temporal Action Localization (WTAL) aims to classify and
localize temporal boundaries of actions for the video, given only video-level
category labels in the training datasets. Due to the lack of boundary
information during training, existing approaches formulate WTAL as a
classificationproblem, i.e., generating the temporal class activation map
(T-CAM) for localization. However, with only classification loss, the model
would be sub-optimized, i.e., the action-related scenes are enough to
distinguish different class labels. Regarding other actions in the
action-related scene ( i.e., the scene same as positive actions) as co-scene
actions, this sub-optimized model would misclassify the co-scene actions as
positive actions. To address this misclassification, we propose a simple yet
efficient method, named bidirectional semantic consistency constraint (Bi-SCC),
to discriminate the positive actions from co-scene actions. The proposed Bi-SCC
firstly adopts a temporal context augmentation to generate an augmented video
that breaks the correlation between positive actions and their co-scene actions
in the inter-video; Then, a semantic consistency constraint (SCC) is used to
enforce the predictions of the original video and augmented video to be
consistent, hence suppressing the co-scene actions. However, we find that this
augmented video would destroy the original temporal context. Simply applying
the consistency constraint would affect the completeness of localized positive
actions. Hence, we boost the SCC in a bidirectional way to suppress co-scene
actions while ensuring the integrity of positive actions, by cross-supervising
the original and augmented videos. Finally, our proposed Bi-SCC can be applied
to current WTAL approaches, and improve their performance. Experimental results
show that our approach outperforms the state-of-the-art methods on THUMOS14 and
ActivityNet.
- Abstract(参考訳): WTAL(Weakly Supervised Temporal Action Localization)は、トレーニングデータセット内のビデオレベルのカテゴリラベルのみを考慮し、ビデオに対するアクションの時間的境界を分類し、ローカライズすることを目的としている。
トレーニング中の境界情報の欠如により、既存のアプローチではwtalを分類問題、すなわち局所化のための時間クラス活性化マップ(t-cam)の生成として定式化している。
しかし、分類損失のみの場合、モデルはサブ最適化されるため、アクション関連のシーンは異なるクラスラベルを区別するのに十分である。
アクション関連シーンにおける他のアクション(すなわち、ポジティブアクションと同じシーン)について、このサブ最適化モデルは、コシーンアクションをポジティブアクションと誤分類する。
この誤分類に対処するために,双方向意味一貫性制約(bi-scc)という,単純かつ効率的な手法を提案する。
提案するbi-sccは,まず,映像間における肯定的行動とコシーン的動作の相関関係を破る拡張映像を生成するために,時間的文脈拡張を採用し,その後に意味的一貫性制約(scc)を用いて,オリジナル映像と拡張映像の予測を一貫性を持たせ,コシーン動作を抑制する。
しかし、この拡張ビデオは、当初の時間的文脈を破壊してしまう。
一貫性の制約を単純に適用すれば、局所化されたポジティブアクションの完全性に影響を及ぼす。
そこで我々は,オリジナルビデオと拡張ビデオの相互監督により,協調行動の抑制と肯定的行動の整合性を確保しつつ,双方向的にSCCを増強する。
最後に,提案するBi-SCCを現在のWTALアプローチに適用し,その性能を向上する。
実験の結果,THUMOS14およびActivityNetの最先端手法よりも優れた性能を示した。
関連論文リスト
- ACE: Action Concept Enhancement of Video-Language Models in Procedural Videos [7.030989629685138]
行動概念強化(ACE)は視覚言語モデル(VLM)の概念理解を改善する
ACEは補助的な分類損失に拡張作用シノニムと負を継続的に組み込む。
エンコードされたエンコードされたアクションシノニムの埋め込みのアライメントを、埋め込み空間に可視化することにより、VLMの概念理解の強化を示す。
論文 参考訳(メタデータ) (2024-11-23T18:49:49Z) - FinePseudo: Improving Pseudo-Labelling through Temporal-Alignablity for Semi-Supervised Fine-Grained Action Recognition [57.17966905865054]
実生活における行動認識の応用は、しばしば微妙な動きのきめ細かい理解を必要とする。
既存の半教師ありアクション認識は主に粗いアクション認識に焦点を当てている。
そこで我々は,微粒なアクションペアの識別を効果的に行うための,アライナビリティ検証に基づくメトリック学習手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T20:08:06Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - End-to-End Semi-Supervised Learning for Video Action Detection [23.042410033982193]
ラベルのないデータを効果的に活用するシンプルなエンドツーエンドアプローチを提案する。
ビデオアクション検出には、アクションクラス予測と時間的一貫性の両方が必要である。
提案手法が2つの異なる行動検出ベンチマークデータセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-03-08T18:11:25Z) - FineAction: A Fined Video Dataset for Temporal Action Localization [60.90129329728657]
FineActionは、既存のビデオデータセットとWebビデオから収集された、新しい大規模なファインドビデオデータセットである。
このデータセットには、106のアクションカテゴリにまたがる約17Kの未トリミングビデオに高密度にアノテートされた139Kのアクションインスタンスが含まれている。
実験結果から,FineActionは短い期間のファインドおよびマルチラベルインスタンス上でのアクションローカライゼーションに新たな課題をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2021-05-24T06:06:32Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Weakly-Supervised Action Localization by Generative Attention Modeling [65.03548422403061]
弱教師付き時間的行動ローカライゼーションは、ビデオレベルの行動ラベルのみを利用できるアクションローカライゼーションモデルを学習する問題である。
条件付き変分自動エンコーダ(VAE)を用いたフレームアテンションのクラス非依存型条件付き確率をモデル化する。
注意に関する条件確率を最大化することにより、アクションフレームと非アクションフレームは適切に分離される。
論文 参考訳(メタデータ) (2020-03-27T14:02:56Z) - Weakly Supervised Temporal Action Localization Using Deep Metric
Learning [12.49814373580862]
本稿では,トレーニング中の映像レベルのアクションインスタンスのみを統括する時間的行動ローカライズ手法を提案する。
標準バックプロパゲーションアルゴリズムを用いて,バランスの取れた2進クロスエントロピー損失とメートル法損失を共同で最適化する。
IoU閾値0.5でTHUMOS14を6.5%mAP改善し,ActivityNet1.2の競合性能を実現した。
論文 参考訳(メタデータ) (2020-01-21T22:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。