論文の概要: Foreground-Action Consistency Network for Weakly Supervised Temporal
Action Localization
- arxiv url: http://arxiv.org/abs/2108.06524v1
- Date: Sat, 14 Aug 2021 12:34:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 15:14:32.090642
- Title: Foreground-Action Consistency Network for Weakly Supervised Temporal
Action Localization
- Title(参考訳): 弱教師付き時間的行動定位のための前景的行動整合性ネットワーク
- Authors: Linjiang Huang, Liang Wang, Hongsheng Li
- Abstract要約: 本稿では、FAC-Netというフレームワークを3つのブランチに付加し、クラスワイドフォアグラウンド分類ブランチ、クラス非依存アテンションブランチ、複数インスタンス学習ブランチを提案する。
まず, クラスワイド前景分類部は, 前景の分離を最大化するために, 行動と前景の関係を正規化する。
さらに、クラスに依存しないアテンションブランチと複数のインスタンス学習ブランチが採用され、フォアグラウンドの一貫性を規則化し、意味のあるフォアグラウンドを学ぶのに役立つ。
- 参考スコア(独自算出の注目度): 66.66545680550782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a challenging task of high-level video understanding, weakly supervised
temporal action localization has been attracting increasing attention. With
only video annotations, most existing methods seek to handle this task with a
localization-by-classification framework, which generally adopts a selector to
select snippets of high probabilities of actions or namely the foreground.
Nevertheless, the existing foreground selection strategies have a major
limitation of only considering the unilateral relation from foreground to
actions, which cannot guarantee the foreground-action consistency. In this
paper, we present a framework named FAC-Net based on the I3D backbone, on which
three branches are appended, named class-wise foreground classification branch,
class-agnostic attention branch and multiple instance learning branch. First,
our class-wise foreground classification branch regularizes the relation
between actions and foreground to maximize the foreground-background
separation. Besides, the class-agnostic attention branch and multiple instance
learning branch are adopted to regularize the foreground-action consistency and
help to learn a meaningful foreground classifier. Within each branch, we
introduce a hybrid attention mechanism, which calculates multiple attention
scores for each snippet, to focus on both discriminative and
less-discriminative snippets to capture the full action boundaries.
Experimental results on THUMOS14 and ActivityNet1.3 demonstrate the
state-of-the-art performance of our method. Our code is available at
https://github.com/LeonHLJ/FAC-Net.
- Abstract(参考訳): 高レベル映像理解の課題として,時間的行動の局所化の弱さが注目されている。
ビデオアノテーションのみを使用して、既存のほとんどのメソッドはこのタスクをローカライズ・バイ・クラス化フレームワークで処理し、一般的に、アクションの確率の高いスニペット、すなわちフォアグラウンドを選択するセレクタを採用する。
それにもかかわらず、既存の前景選択戦略は、前景からアクションへの一方的な関係のみを考慮するという大きな制限を持ち、前景とアクションの一貫性を保証できない。
本稿では,i3dバックボーンに基づくfac-netというフレームワークについて述べる。このフレームワークでは,3つのブランチが付加され,クラス別フォアグラウンド分類ブランチ,クラス非依存注意ブランチ,複数インスタンス学習ブランチと命名された。
まず, クラスワイド前景分類部は, 前景分離を最大化するために, 行動と前景の関係を規則化する。
さらに、前景-アクション一貫性を規則化し、有意義な前景分類器を学ぶのに役立つ、クラス非依存の注意ブランチと複数のインスタンス学習ブランチが採用されている。
各ブランチでは,各スニペットに対する複数のアテンションスコアを計算するハイブリッドアテンション機構を導入し,識別スニペットと非識別スニペットの両方に着目し,アクション境界全体をキャプチャする。
THUMOS14とActivityNet1.3の実験結果から,本手法の最先端性能が示された。
私たちのコードはhttps://github.com/leonhlj/fac-netで利用可能です。
関連論文リスト
- Focus-Consistent Multi-Level Aggregation for Compositional Zero-Shot Learning [34.133790456747626]
画像の内容に基づいて各ブランチ毎にパーソナライズされた特徴を生成する新しい手法を提案する。
本手法では,MFA(Multi-Level Feature Aggregation)モジュールを組み込んで,画像の内容に基づいて各ブランチのパーソナライズされた特徴を生成する。
論文 参考訳(メタデータ) (2024-08-30T08:13:06Z) - Revisiting Foreground and Background Separation in Weakly-supervised
Temporal Action Localization: A Clustering-based Approach [48.684550829098534]
弱教師付き時間的アクションローカライゼーションは、アクションインスタンスをビデオレベルのアクションラベルのみでローカライズすることを目的としている。
クラスタリングに基づく新しいF&B分離アルゴリズムを提案する。
我々は,THUMOS14,ActivityNet v1.2,v1.3の3つのベンチマークで評価を行った。
論文 参考訳(メタデータ) (2023-12-21T18:57:12Z) - Proposal-based Temporal Action Localization with Point-level Supervision [29.98225940694062]
ポイントレベルの時間的行動ローカライゼーション(PTAL)は、未トリミングビデオにおけるアクションの認識とローカライズを目的としている。
そこで本研究では,フレキシブル期間のアクション提案を生成し,評価することで,アクションをローカライズする手法を提案する。
実験の結果,提案手法は最先端手法の競争力や性能に優れることがわかった。
論文 参考訳(メタデータ) (2023-10-09T08:27:05Z) - ACM-Net: Action Context Modeling Network for Weakly-Supervised Temporal
Action Localization [18.56421375743287]
ACM-Netと呼ばれるアクションコンテキストモデリングネットワークを提案する。
アクションインスタンス、コンテキスト、非アクションバックグラウンドの各時間ポイントの確率を同時に測定するために、3つの分岐アテンションモジュールを統合する。
提案手法は現在の最先端手法よりも優れており,完全教師付き手法で同等の性能を達成できる。
論文 参考訳(メタデータ) (2021-04-07T07:39:57Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - ACSNet: Action-Context Separation Network for Weakly Supervised Temporal
Action Localization [148.55210919689986]
アクションの正確なローカリゼーションのためにコンテキストを考慮したアクションコンテキスト分離ネットワーク(ACSNet)を紹介します。
ACSNetは、既存の最先端のWS-TALメソッドを大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-03-28T09:20:54Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Weakly-Supervised Action Localization by Generative Attention Modeling [65.03548422403061]
弱教師付き時間的行動ローカライゼーションは、ビデオレベルの行動ラベルのみを利用できるアクションローカライゼーションモデルを学習する問題である。
条件付き変分自動エンコーダ(VAE)を用いたフレームアテンションのクラス非依存型条件付き確率をモデル化する。
注意に関する条件確率を最大化することにより、アクションフレームと非アクションフレームは適切に分離される。
論文 参考訳(メタデータ) (2020-03-27T14:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。