論文の概要: ACSNet: Action-Context Separation Network for Weakly Supervised Temporal
Action Localization
- arxiv url: http://arxiv.org/abs/2103.15088v1
- Date: Sun, 28 Mar 2021 09:20:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 15:02:53.043610
- Title: ACSNet: Action-Context Separation Network for Weakly Supervised Temporal
Action Localization
- Title(参考訳): ACSNet:時間的行動局所化を弱める行動コンテキスト分離ネットワーク
- Authors: Ziyi Liu, Le Wang, Qilin Zhang, Wei Tang, Junsong Yuan, Nanning Zheng,
Gang Hua
- Abstract要約: アクションの正確なローカリゼーションのためにコンテキストを考慮したアクションコンテキスト分離ネットワーク(ACSNet)を紹介します。
ACSNetは、既存の最先端のWS-TALメソッドを大きなマージンで上回っています。
- 参考スコア(独自算出の注目度): 148.55210919689986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The object of Weakly-supervised Temporal Action Localization (WS-TAL) is to
localize all action instances in an untrimmed video with only video-level
supervision. Due to the lack of frame-level annotations during training,
current WS-TAL methods rely on attention mechanisms to localize the foreground
snippets or frames that contribute to the video-level classification task. This
strategy frequently confuse context with the actual action, in the localization
result. Separating action and context is a core problem for precise WS-TAL, but
it is very challenging and has been largely ignored in the literature. In this
paper, we introduce an Action-Context Separation Network (ACSNet) that
explicitly takes into account context for accurate action localization. It
consists of two branches (i.e., the Foreground-Background branch and the
Action-Context branch). The Foreground- Background branch first distinguishes
foreground from background within the entire video while the Action-Context
branch further separates the foreground as action and context. We associate
video snippets with two latent components (i.e., a positive component and a
negative component), and their different combinations can effectively
characterize foreground, action and context. Furthermore, we introduce extended
labels with auxiliary context categories to facilitate the learning of
action-context separation. Experiments on THUMOS14 and ActivityNet v1.2/v1.3
datasets demonstrate the ACSNet outperforms existing state-of-the-art WS-TAL
methods by a large margin.
- Abstract(参考訳): Weakly-supervised Temporal Action Localization (WS-TAL) の目的は、すべてのアクションインスタンスをビデオレベルの監視のみでトリミングされたビデオにローカライズすることである。
トレーニング中にフレームレベルのアノテーションがないため、現在のWS-TALメソッドはビデオレベルの分類タスクに寄与する前景のスニペットやフレームをローカライズするアテンションメカニズムに依存している。
この戦略は、ローカライゼーション結果においてコンテキストを実際のアクションと混同することが多い。
アクションとコンテキストの分離は、正確なWS-TALにとって重要な問題ですが、非常に困難で、文献でほとんど無視されています。
本稿では,アクションローカライズのためのコンテキストを明示的に考慮した行動コンテキスト分離ネットワーク(ACSNet)を提案する。
2つのブランチ(すなわちフォアグラウンドバックグラウンドブランチとアクションコンテキストブランチ)で構成されている。
前景背景ブランチは、まずビデオ全体の背景と前景を区別する一方、Action-Contextブランチは、その前景をアクションとコンテキストとして分離する。
我々はビデオスニペットを2つの潜伏成分(正の成分と負の成分)に関連付け、それらの組み合わせは前景、アクション、コンテキストを効果的に特徴付けることができる。
さらに,アクション・コンテキスト分離の学習を容易にするために,補助コンテキストカテゴリを持つ拡張ラベルを導入する。
THUMOS14とActivityNet v1.2/v1.3データセットの実験では、ACSNetが既存のWS-TALメソッドよりも大きなマージンで優れていることが示されている。
関連論文リスト
- Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - HTNet: Anchor-free Temporal Action Localization with Hierarchical
Transformers [19.48000379201692]
時間的アクションローカライゼーション(TAL: Temporal Action Localization)は、ビデオ内のアクションの集合を識別するタスクである。
我々は,ビデオから開始時間,終了時間,クラス>三つ組のセットを予測する,HTNetと呼ばれる新しいアンカーフリーフレームワークを提案する。
本手法は,2つのTALベンチマークデータセット上で,正確なアクションインスタンスと最先端性能をローカライズする方法を実証する。
論文 参考訳(メタデータ) (2022-07-20T05:40:03Z) - Foreground-Action Consistency Network for Weakly Supervised Temporal
Action Localization [66.66545680550782]
本稿では、FAC-Netというフレームワークを3つのブランチに付加し、クラスワイドフォアグラウンド分類ブランチ、クラス非依存アテンションブランチ、複数インスタンス学習ブランチを提案する。
まず, クラスワイド前景分類部は, 前景の分離を最大化するために, 行動と前景の関係を正規化する。
さらに、クラスに依存しないアテンションブランチと複数のインスタンス学習ブランチが採用され、フォアグラウンドの一貫性を規則化し、意味のあるフォアグラウンドを学ぶのに役立つ。
論文 参考訳(メタデータ) (2021-08-14T12:34:44Z) - ACM-Net: Action Context Modeling Network for Weakly-Supervised Temporal
Action Localization [18.56421375743287]
ACM-Netと呼ばれるアクションコンテキストモデリングネットワークを提案する。
アクションインスタンス、コンテキスト、非アクションバックグラウンドの各時間ポイントの確率を同時に測定するために、3つの分岐アテンションモジュールを統合する。
提案手法は現在の最先端手法よりも優れており,完全教師付き手法で同等の性能を達成できる。
論文 参考訳(メタデータ) (2021-04-07T07:39:57Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Learning to Localize Actions from Moments [153.54638582696128]
本研究では,多種多様な行動カテゴリに対する行動ローカライゼーションを学習するトランスファーラーニングタイプの新しい設計を提案する。
本稿では、そのような設計をワンステージのアクションローカライズフレームワークに統合するアクション・ヘラルド・ネットワーク(AherNet)を提案する。
論文 参考訳(メタデータ) (2020-08-31T16:03:47Z) - Weakly-Supervised Action Localization by Generative Attention Modeling [65.03548422403061]
弱教師付き時間的行動ローカライゼーションは、ビデオレベルの行動ラベルのみを利用できるアクションローカライゼーションモデルを学習する問題である。
条件付き変分自動エンコーダ(VAE)を用いたフレームアテンションのクラス非依存型条件付き確率をモデル化する。
注意に関する条件確率を最大化することにより、アクションフレームと非アクションフレームは適切に分離される。
論文 参考訳(メタデータ) (2020-03-27T14:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。