論文の概要: ACM-Net: Action Context Modeling Network for Weakly-Supervised Temporal
Action Localization
- arxiv url: http://arxiv.org/abs/2104.02967v1
- Date: Wed, 7 Apr 2021 07:39:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 21:01:39.120714
- Title: ACM-Net: Action Context Modeling Network for Weakly-Supervised Temporal
Action Localization
- Title(参考訳): ACM-Net:時間的行動局所化のための行動コンテキストモデリングネットワーク
- Authors: Sanqing Qu, Guang Chen, Zhijun Li, Lijun Zhang, Fan Lu, Alois Knoll
- Abstract要約: ACM-Netと呼ばれるアクションコンテキストモデリングネットワークを提案する。
アクションインスタンス、コンテキスト、非アクションバックグラウンドの各時間ポイントの確率を同時に測定するために、3つの分岐アテンションモジュールを統合する。
提案手法は現在の最先端手法よりも優れており,完全教師付き手法で同等の性能を達成できる。
- 参考スコア(独自算出の注目度): 18.56421375743287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly-supervised temporal action localization aims to localize action
instances temporal boundary and identify the corresponding action category with
only video-level labels. Traditional methods mainly focus on foreground and
background frames separation with only a single attention branch and class
activation sequence. However, we argue that apart from the distinctive
foreground and background frames there are plenty of semantically ambiguous
action context frames. It does not make sense to group those context frames to
the same background class since they are semantically related to a specific
action category. Consequently, it is challenging to suppress action context
frames with only a single class activation sequence. To address this issue, in
this paper, we propose an action-context modeling network termed ACM-Net, which
integrates a three-branch attention module to measure the likelihood of each
temporal point being action instance, context, or non-action background,
simultaneously. Then based on the obtained three-branch attention values, we
construct three-branch class activation sequences to represent the action
instances, contexts, and non-action backgrounds, individually. To evaluate the
effectiveness of our ACM-Net, we conduct extensive experiments on two benchmark
datasets, THUMOS-14 and ActivityNet-1.3. The experiments show that our method
can outperform current state-of-the-art methods, and even achieve comparable
performance with fully-supervised methods. Code can be found at
https://github.com/ispc-lab/ACM-Net
- Abstract(参考訳): 弱教師付き時間的アクションローカライズの目的は、アクションインスタンスの時間的境界を局所化し、対応するアクションカテゴリをビデオレベルラベルのみで識別することである。
伝統的な手法は主に前景と背景フレームの分離に重点を置いており、単一の注意ブランチとクラスアクティベーションシーケンスしか持たない。
しかし,前景や背景フレームは別として,意味的にあいまいなアクション・コンテキスト・フレームが多数存在する。
特定のアクションカテゴリにセマンティックに関連があるため、それらのコンテキストフレームを同じバックグラウンドクラスにグループ化することは意味がない。
したがって、単一のクラスのアクティベーションシーケンスだけでアクションコンテキストフレームを抑えることは困難である。
本稿では,ACM-Netと呼ばれるアクションコンテキストモデリングネットワークを提案する。このネットワークは3分岐アテンションモジュールを統合し,アクションインスタンス,コンテキスト,非アクションバックグラウンドの各時間点の確率を同時に測定する。
そして得られた3ブランチの注目値に基づいて,アクションインスタンス,コンテキスト,非アクション背景を個別に表現する3ブランチクラスのアクティベーションシーケンスを構築する。
ACM-Netの有効性を評価するため、2つのベンチマークデータセットTHUMOS-14とActivityNet-1.3について広範な実験を行った。
実験の結果,本手法は最先端の手法よりも優れており,完全教師付き手法で同等の性能を達成できることがわかった。
コードはhttps://github.com/ispc-lab/acm-netにある。
関連論文リスト
- Weakly-Supervised Temporal Action Localization with Bidirectional
Semantic Consistency Constraint [83.36913240873236]
WTAL(Weakly Supervised Temporal Action Localization)は、ビデオの時間的境界を分類し、ローカライズすることを目的としている。
本研究では,双方向意味整合性制約 (Bi-SCC) という単純な手法を提案する。
実験結果から,THUMOS14とActivityNetの最先端手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-04-25T07:20:33Z) - HTNet: Anchor-free Temporal Action Localization with Hierarchical
Transformers [19.48000379201692]
時間的アクションローカライゼーション(TAL: Temporal Action Localization)は、ビデオ内のアクションの集合を識別するタスクである。
我々は,ビデオから開始時間,終了時間,クラス>三つ組のセットを予測する,HTNetと呼ばれる新しいアンカーフリーフレームワークを提案する。
本手法は,2つのTALベンチマークデータセット上で,正確なアクションインスタンスと最先端性能をローカライズする方法を実証する。
論文 参考訳(メタデータ) (2022-07-20T05:40:03Z) - Foreground-Action Consistency Network for Weakly Supervised Temporal
Action Localization [66.66545680550782]
本稿では、FAC-Netというフレームワークを3つのブランチに付加し、クラスワイドフォアグラウンド分類ブランチ、クラス非依存アテンションブランチ、複数インスタンス学習ブランチを提案する。
まず, クラスワイド前景分類部は, 前景の分離を最大化するために, 行動と前景の関係を正規化する。
さらに、クラスに依存しないアテンションブランチと複数のインスタンス学習ブランチが採用され、フォアグラウンドの一貫性を規則化し、意味のあるフォアグラウンドを学ぶのに役立つ。
論文 参考訳(メタデータ) (2021-08-14T12:34:44Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - ACSNet: Action-Context Separation Network for Weakly Supervised Temporal
Action Localization [148.55210919689986]
アクションの正確なローカリゼーションのためにコンテキストを考慮したアクションコンテキスト分離ネットワーク(ACSNet)を紹介します。
ACSNetは、既存の最先端のWS-TALメソッドを大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-03-28T09:20:54Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - A Hybrid Attention Mechanism for Weakly-Supervised Temporal Action
Localization [12.353250130848044]
本稿では,時間的ソフト,半ソフト,ハードアテンションを含むハイブリッドアテンション機構を備えたHAM-Netという新しいフレームワークを提案する。
提案手法は,THUMOS14データセット上のIoUしきい値0.5において,少なくとも2.2%のmAPで最新の最先端手法より優れている。
論文 参考訳(メタデータ) (2021-01-03T03:08:18Z) - Weakly-Supervised Action Localization by Generative Attention Modeling [65.03548422403061]
弱教師付き時間的行動ローカライゼーションは、ビデオレベルの行動ラベルのみを利用できるアクションローカライゼーションモデルを学習する問題である。
条件付き変分自動エンコーダ(VAE)を用いたフレームアテンションのクラス非依存型条件付き確率をモデル化する。
注意に関する条件確率を最大化することにより、アクションフレームと非アクションフレームは適切に分離される。
論文 参考訳(メタデータ) (2020-03-27T14:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。