論文の概要: A Hybrid Attention Mechanism for Weakly-Supervised Temporal Action
Localization
- arxiv url: http://arxiv.org/abs/2101.00545v3
- Date: Wed, 24 Mar 2021 23:15:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 06:03:08.935402
- Title: A Hybrid Attention Mechanism for Weakly-Supervised Temporal Action
Localization
- Title(参考訳): 弱教師付き時間行動定位のためのハイブリッドアテンション機構
- Authors: Ashraful Islam, Chengjiang Long, Richard Radke
- Abstract要約: 本稿では,時間的ソフト,半ソフト,ハードアテンションを含むハイブリッドアテンション機構を備えたHAM-Netという新しいフレームワークを提案する。
提案手法は,THUMOS14データセット上のIoUしきい値0.5において,少なくとも2.2%のmAPで最新の最先端手法より優れている。
- 参考スコア(独自算出の注目度): 12.353250130848044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly supervised temporal action localization is a challenging vision task
due to the absence of ground-truth temporal locations of actions in the
training videos. With only video-level supervision during training, most
existing methods rely on a Multiple Instance Learning (MIL) framework to
predict the start and end frame of each action category in a video. However,
the existing MIL-based approach has a major limitation of only capturing the
most discriminative frames of an action, ignoring the full extent of an
activity. Moreover, these methods cannot model background activity effectively,
which plays an important role in localizing foreground activities. In this
paper, we present a novel framework named HAM-Net with a hybrid attention
mechanism which includes temporal soft, semi-soft and hard attentions to
address these issues. Our temporal soft attention module, guided by an
auxiliary background class in the classification module, models the background
activity by introducing an "action-ness" score for each video snippet.
Moreover, our temporal semi-soft and hard attention modules, calculating two
attention scores for each video snippet, help to focus on the less
discriminative frames of an action to capture the full action boundary. Our
proposed approach outperforms recent state-of-the-art methods by at least 2.2%
mAP at IoU threshold 0.5 on the THUMOS14 dataset, and by at least 1.3% mAP at
IoU threshold 0.75 on the ActivityNet1.2 dataset. Code can be found at:
https://github.com/asrafulashiq/hamnet.
- Abstract(参考訳): 弱教師付き時間的行動定位は,訓練映像における動作の接地的位置の欠如による難解な視覚課題である。
トレーニング中のビデオレベルの監視だけで、既存のほとんどのメソッドは、ビデオ内の各アクションカテゴリの開始と終了フレームを予測するためにMIL(Multiple Instance Learning)フレームワークに依存しています。
しかし、既存のMILベースのアプローチは、アクションの最も差別的なフレームのみをキャプチャし、アクティビティの全範囲を無視するという大きな制限がある。
また,前景活動の局所化において重要な役割を担っている背景活動を効果的にモデル化することはできない。
本稿では,これらの問題に対処するための時間的ソフト,セミソフト,ハードアテンションを含むハイブリッドアテンション機構を備えた,HAM-Netという新しいフレームワークを提案する。
我々の時間的ソフトアテンションモジュールは、分類モジュールの補助的バックグラウンドクラスによってガイドされ、各ビデオスニペットに「アクションネス」スコアを導入して背景活動をモデル化する。
さらに,ビデオスニペット毎に2点の注意スコアを算出した時間的半ソフト・ハードアテンションモジュールは,アクションの識別の少ないフレームに焦点を合わせ,フルアクション境界を捉えるのに役立つ。
提案手法は,THUMOS14データセットのIoUしきい値0.5で少なくとも2.2% mAP,ActivityNet1.2データセットのIoUしきい値0.75で少なくとも1.3% mAP,最新の最先端手法よりも優れている。
コードは、https://github.com/asrafulashiq/hamnet.comで参照できる。
関連論文リスト
- Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - Proposal-based Temporal Action Localization with Point-level Supervision [29.98225940694062]
ポイントレベルの時間的行動ローカライゼーション(PTAL)は、未トリミングビデオにおけるアクションの認識とローカライズを目的としている。
そこで本研究では,フレキシブル期間のアクション提案を生成し,評価することで,アクションをローカライズする手法を提案する。
実験の結果,提案手法は最先端手法の競争力や性能に優れることがわかった。
論文 参考訳(メタデータ) (2023-10-09T08:27:05Z) - Progression-Guided Temporal Action Detection in Videos [20.02711550239915]
本稿では,時間的行動検出(TAD)のための新しいフレームワークであるAction Progression Network(APN)を提案する。
このフレームワークは、アクション進化プロセスを検出して、ビデオ中のアクションを見つける。
完全なアクションプロセスを101段階に定量化し、アクションの進行を認識するためにニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2023-08-18T03:14:05Z) - Foreground-Action Consistency Network for Weakly Supervised Temporal
Action Localization [66.66545680550782]
本稿では、FAC-Netというフレームワークを3つのブランチに付加し、クラスワイドフォアグラウンド分類ブランチ、クラス非依存アテンションブランチ、複数インスタンス学習ブランチを提案する。
まず, クラスワイド前景分類部は, 前景の分離を最大化するために, 行動と前景の関係を正規化する。
さらに、クラスに依存しないアテンションブランチと複数のインスタンス学習ブランチが採用され、フォアグラウンドの一貫性を規則化し、意味のあるフォアグラウンドを学ぶのに役立つ。
論文 参考訳(メタデータ) (2021-08-14T12:34:44Z) - Action Unit Memory Network for Weakly Supervised Temporal Action
Localization [124.61981738536642]
弱い教師付き時間的行動局在(weakly supervised temporal action localization)は、訓練中のビデオレベルラベルのみを持つ未トリミングビデオにおける行動の検出とローカライズを目的としている。
AUMN(Action Unit Memory Network)は、時間的行動の弱い局在化を監督する。
論文 参考訳(メタデータ) (2021-04-29T06:19:44Z) - ACM-Net: Action Context Modeling Network for Weakly-Supervised Temporal
Action Localization [18.56421375743287]
ACM-Netと呼ばれるアクションコンテキストモデリングネットワークを提案する。
アクションインスタンス、コンテキスト、非アクションバックグラウンドの各時間ポイントの確率を同時に測定するために、3つの分岐アテンションモジュールを統合する。
提案手法は現在の最先端手法よりも優れており,完全教師付き手法で同等の性能を達成できる。
論文 参考訳(メタデータ) (2021-04-07T07:39:57Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Revisiting Few-shot Activity Detection with Class Similarity Control [107.79338380065286]
本稿では,提案回帰に基づく数ショットの時間的活動検出のためのフレームワークを提案する。
我々のモデルはエンドツーエンドのトレーニングが可能で、数ショットのアクティビティと未トリミングなテストビデオのフレームレートの違いを考慮しており、さらに数ショットのサンプルの恩恵を受けることができる。
論文 参考訳(メタデータ) (2020-03-31T22:02:38Z) - Weakly Supervised Temporal Action Localization Using Deep Metric
Learning [12.49814373580862]
本稿では,トレーニング中の映像レベルのアクションインスタンスのみを統括する時間的行動ローカライズ手法を提案する。
標準バックプロパゲーションアルゴリズムを用いて,バランスの取れた2進クロスエントロピー損失とメートル法損失を共同で最適化する。
IoU閾値0.5でTHUMOS14を6.5%mAP改善し,ActivityNet1.2の競合性能を実現した。
論文 参考訳(メタデータ) (2020-01-21T22:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。