論文の概要: Weakly-Supervised Action Localization by Generative Attention Modeling
- arxiv url: http://arxiv.org/abs/2003.12424v2
- Date: Mon, 30 Mar 2020 14:36:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 05:10:57.834136
- Title: Weakly-Supervised Action Localization by Generative Attention Modeling
- Title(参考訳): 生成的注意モデルによる弱教師付き行動定位
- Authors: Baifeng Shi, Qi Dai, Yadong Mu, Jingdong Wang
- Abstract要約: 弱教師付き時間的行動ローカライゼーションは、ビデオレベルの行動ラベルのみを利用できるアクションローカライゼーションモデルを学習する問題である。
条件付き変分自動エンコーダ(VAE)を用いたフレームアテンションのクラス非依存型条件付き確率をモデル化する。
注意に関する条件確率を最大化することにより、アクションフレームと非アクションフレームは適切に分離される。
- 参考スコア(独自算出の注目度): 65.03548422403061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly-supervised temporal action localization is a problem of learning an
action localization model with only video-level action labeling available. The
general framework largely relies on the classification activation, which
employs an attention model to identify the action-related frames and then
categorizes them into different classes. Such method results in the
action-context confusion issue: context frames near action clips tend to be
recognized as action frames themselves, since they are closely related to the
specific classes. To solve the problem, in this paper we propose to model the
class-agnostic frame-wise probability conditioned on the frame attention using
conditional Variational Auto-Encoder (VAE). With the observation that the
context exhibits notable difference from the action at representation level, a
probabilistic model, i.e., conditional VAE, is learned to model the likelihood
of each frame given the attention. By maximizing the conditional probability
with respect to the attention, the action and non-action frames are well
separated. Experiments on THUMOS14 and ActivityNet1.2 demonstrate advantage of
our method and effectiveness in handling action-context confusion problem. Code
is now available on GitHub.
- Abstract(参考訳): 弱教師付き時間的行動ローカライゼーションは、ビデオレベルの行動ラベルのみを利用できるアクションローカライゼーションモデルを学習する問題である。
一般的なフレームワークは、主に分類アクティベーションに依存しており、アクション関連のフレームを識別するために注意モデルを採用し、それらを異なるクラスに分類する。
アクションクリップに近いコンテキストフレームは、特定のクラスに密接に関連しているため、アクションフレーム自身として認識される傾向がある。
そこで本研究では,条件付き変分自動エンコーダ(VAE)を用いて,フレームアテンションに条件付されるクラス非依存フレームの確率をモデル化する。
文脈が表現レベルでの動作と顕著な差異を示すことを観察することにより、各フレームの注目度をモデル化する確率論的モデル、すなわち条件付きVAEが学習される。
注意に関する条件確率を最大化することにより、アクションフレームと非アクションフレームは適切に分離される。
THUMOS14とActivityNet1.2の実験は、動作コンテキスト混同問題に対処するための手法と有効性を示す。
コードはgithubから入手できる。
関連論文リスト
- Weakly-Supervised Temporal Action Localization with Bidirectional
Semantic Consistency Constraint [83.36913240873236]
WTAL(Weakly Supervised Temporal Action Localization)は、ビデオの時間的境界を分類し、ローカライズすることを目的としている。
本研究では,双方向意味整合性制約 (Bi-SCC) という単純な手法を提案する。
実験結果から,THUMOS14とActivityNetの最先端手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-04-25T07:20:33Z) - Background-Click Supervision for Temporal Action Localization [82.4203995101082]
時間的行動ローカライゼーションの弱さは、ビデオレベルのラベルからインスタンスレベルのアクションパターンを学習することを目的としており、アクションコンテキストの混乱が大きな課題である。
最近の作業の1つは、アクションクリックの監視フレームワークを構築している。
同様のアノテーションのコストを必要とするが、従来の弱い教師付き手法と比較して、着実にローカライズ性能を向上させることができる。
本稿では,既存の手法の性能ボトルネックが背景誤差に起因していることを明らかにすることにより,より強力なアクションローカライザを,アクションフレームではなく,バックグラウンドビデオフレーム上のラベルでトレーニングできることを見出した。
論文 参考訳(メタデータ) (2021-11-24T12:02:52Z) - Foreground-Action Consistency Network for Weakly Supervised Temporal
Action Localization [66.66545680550782]
本稿では、FAC-Netというフレームワークを3つのブランチに付加し、クラスワイドフォアグラウンド分類ブランチ、クラス非依存アテンションブランチ、複数インスタンス学習ブランチを提案する。
まず, クラスワイド前景分類部は, 前景の分離を最大化するために, 行動と前景の関係を正規化する。
さらに、クラスに依存しないアテンションブランチと複数のインスタンス学習ブランチが採用され、フォアグラウンドの一貫性を規則化し、意味のあるフォアグラウンドを学ぶのに役立つ。
論文 参考訳(メタデータ) (2021-08-14T12:34:44Z) - Weakly Supervised Action Selection Learning in Video [8.337649176647645]
行動選択学習(Action Selection Learning)は、行動の一般的な概念、つまり「行動性」をとらえるために提案される。
我々は、ASLがTHUMOS-14とActivityNet-1.2の2つの一般的なベンチマークのベースラインを上回り、10.3%と5.7%の相対的な改善を示した。
論文 参考訳(メタデータ) (2021-05-06T04:39:29Z) - ACM-Net: Action Context Modeling Network for Weakly-Supervised Temporal
Action Localization [18.56421375743287]
ACM-Netと呼ばれるアクションコンテキストモデリングネットワークを提案する。
アクションインスタンス、コンテキスト、非アクションバックグラウンドの各時間ポイントの確率を同時に測定するために、3つの分岐アテンションモジュールを統合する。
提案手法は現在の最先端手法よりも優れており,完全教師付き手法で同等の性能を達成できる。
論文 参考訳(メタデータ) (2021-04-07T07:39:57Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - ACSNet: Action-Context Separation Network for Weakly Supervised Temporal
Action Localization [148.55210919689986]
アクションの正確なローカリゼーションのためにコンテキストを考慮したアクションコンテキスト分離ネットワーク(ACSNet)を紹介します。
ACSNetは、既存の最先端のWS-TALメソッドを大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-03-28T09:20:54Z) - Action Localization through Continual Predictive Learning [14.582013761620738]
本稿では,自己監督のための特徴レベルの予測を用いた連続学習に基づく新しいアプローチを提案する。
我々は、CNNエンコーダと組み合わされたLSTMのスタックと、新しいアテンション機構を用いて、ビデオ内のイベントをモデル化し、このモデルを使用して将来のフレームの高レベル機能を予測する。
この自己教師型フレームワークは他のアプローチほど複雑ではないが、ラベリングとローカライゼーションの両方で堅牢な視覚表現を学ぶのに非常に効果的である。
論文 参考訳(メタデータ) (2020-03-26T23:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。