論文の概要: Action Unit Memory Network for Weakly Supervised Temporal Action
Localization
- arxiv url: http://arxiv.org/abs/2104.14135v1
- Date: Thu, 29 Apr 2021 06:19:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-30 13:01:54.542241
- Title: Action Unit Memory Network for Weakly Supervised Temporal Action
Localization
- Title(参考訳): 時間的行動ローカライゼーションのためのアクションユニット記憶ネットワーク
- Authors: Wang Luo, Tianzhu Zhang, Wenfei Yang, Jingen Liu, Tao Mei, Feng Wu,
Yongdong Zhang
- Abstract要約: 弱い教師付き時間的行動局在(weakly supervised temporal action localization)は、訓練中のビデオレベルラベルのみを持つ未トリミングビデオにおける行動の検出とローカライズを目的としている。
AUMN(Action Unit Memory Network)は、時間的行動の弱い局在化を監督する。
- 参考スコア(独自算出の注目度): 124.61981738536642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised temporal action localization aims to detect and localize
actions in untrimmed videos with only video-level labels during training.
However, without frame-level annotations, it is challenging to achieve
localization completeness and relieve background interference. In this paper,
we present an Action Unit Memory Network (AUMN) for weakly supervised temporal
action localization, which can mitigate the above two challenges by learning an
action unit memory bank. In the proposed AUMN, two attention modules are
designed to update the memory bank adaptively and learn action units specific
classifiers. Furthermore, three effective mechanisms (diversity, homogeneity
and sparsity) are designed to guide the updating of the memory network. To the
best of our knowledge, this is the first work to explicitly model the action
units with a memory network. Extensive experimental results on two standard
benchmarks (THUMOS14 and ActivityNet) demonstrate that our AUMN performs
favorably against state-of-the-art methods. Specifically, the average mAP of
IoU thresholds from 0.1 to 0.5 on the THUMOS14 dataset is significantly
improved from 47.0% to 52.1%.
- Abstract(参考訳): 弱い教師付き時間的行動局在(weakly supervised temporal action localization)は、訓練中のビデオレベルラベルのみを持つ未トリミングビデオにおける行動の検出とローカライズを目的としている。
しかし,フレームレベルのアノテーションがなければ,局所化完全性を実現し,背景干渉を緩和することは困難である。
本稿では,動作単位メモリバンクを学習することで,上記の2つの課題を緩和できる,時間的動作ローカライゼーションを弱く管理するアクションユニットメモリネットワーク(AUMN)を提案する。
提案したAUMNでは、2つのアテンションモジュールがメモリバンクを適応的に更新し、アクションユニット固有の分類器を学習するように設計されている。
さらに、メモリネットワークの更新を導くために、3つの効果的なメカニズム(多様性、均一性、疎性)が設計されている。
私たちの知る限りでは、メモリネットワークでアクションユニットを明示的にモデル化するのはこれが初めてです。
2つの標準ベンチマーク(THUMOS14とActivityNet)の大規模な実験結果から、AUMNは最先端の手法に対して好適に動作することが示された。
具体的には、THUMOS14データセットにおけるIoU閾値の平均mAPは、47.0%から52.1%に大幅に改善されている。
関連論文リスト
- Weakly-Supervised Action Localization by Hierarchically-structured
Latent Attention Modeling [19.683714649646603]
弱教師付きアクションローカライゼーションは、ビデオレベルのラベルのみを持つ未トリミングビデオにおけるアクションインスタンスを認識およびローカライズすることを目的としている。
既存のモデルのほとんどはマルチインスタンス学習(MIL)に依存しており、ラベル付きバッグを分類することでラベル付きインスタンスの予測を監督している。
本稿では,特徴セマンティクスの時間的変動を学習するために,新しい注意に基づく階層構造潜在モデルを提案する。
論文 参考訳(メタデータ) (2023-08-19T08:45:49Z) - Weakly-Supervised Temporal Action Localization by Inferring Salient
Snippet-Feature [26.7937345622207]
弱教師付き時間的アクションローカライゼーションは、教師なしビデオ内のアクション領域を特定し、アクションカテゴリを同時に特定することを目的としている。
擬似ラベル生成は、この課題を解決するための有望な戦略であるが、現在の手法ではビデオの自然な時間構造を無視している。
そこで本研究では,有意なスニペット特徴を推定し,時間的動作の局所化を弱く制御する手法を提案する。
論文 参考訳(メタデータ) (2023-03-22T06:08:34Z) - Self-Attentive Pooling for Efficient Deep Learning [6.822466048176652]
そこで本研究では,標準プーリング層に対するドロップイン代替として使用可能な,非局所的な自己係留型プーリング手法を提案する。
我々は、ImageNet上のMobileNet-V2の様々な変種に対する既存のプール技術のテスト精度を平均1.2%上回る。
提案手法は,イソメモリフットプリントを用いたSOTA技術と比較して1.43%高い精度を実現している。
論文 参考訳(メタデータ) (2022-09-16T00:35:14Z) - Adversarial Memory Networks for Action Prediction [95.09968654228372]
アクション予測は、今後の人間の行動を部分的に観察されたビデオで推測することを目的としている。
本稿では,ある部分的ビデオクエリに"フルビデオ"機能コンディショニングを生成するために,AMemNet(Adversarial memory network)を提案する。
論文 参考訳(メタデータ) (2021-12-18T08:16:21Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:21:01Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - A Hybrid Attention Mechanism for Weakly-Supervised Temporal Action
Localization [12.353250130848044]
本稿では,時間的ソフト,半ソフト,ハードアテンションを含むハイブリッドアテンション機構を備えたHAM-Netという新しいフレームワークを提案する。
提案手法は,THUMOS14データセット上のIoUしきい値0.5において,少なくとも2.2%のmAPで最新の最先端手法より優れている。
論文 参考訳(メタデータ) (2021-01-03T03:08:18Z) - Weakly Supervised Temporal Action Localization Using Deep Metric
Learning [12.49814373580862]
本稿では,トレーニング中の映像レベルのアクションインスタンスのみを統括する時間的行動ローカライズ手法を提案する。
標準バックプロパゲーションアルゴリズムを用いて,バランスの取れた2進クロスエントロピー損失とメートル法損失を共同で最適化する。
IoU閾値0.5でTHUMOS14を6.5%mAP改善し,ActivityNet1.2の競合性能を実現した。
論文 参考訳(メタデータ) (2020-01-21T22:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。