論文の概要: D2-Net: Weakly-Supervised Action Localization via Discriminative
Embeddings and Denoised Activations
- arxiv url: http://arxiv.org/abs/2012.06440v1
- Date: Fri, 11 Dec 2020 16:01:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 02:58:27.708479
- Title: D2-Net: Weakly-Supervised Action Localization via Discriminative
Embeddings and Denoised Activations
- Title(参考訳): d2-net: 弁別埋め込みと弁別アクティベーションによる弱い教師付き行動局在
- Authors: Sanath Narayan, Hisham Cholakkal, Munawar Hayat, Fahad Shahbaz Khan,
Ming-Hsuan Yang, Ling Shao
- Abstract要約: 本研究では,D2-Net と呼ばれる時間的行動ローカリゼーションフレームワークを提案する。
私たちの主な貢献は、潜伏埋め込みの識別性を共同で向上する新しい損失製剤の導入です。
我々のD2-Netは、既存の2つのデータセットの手法と比較して好意的に機能する。
- 参考スコア(独自算出の注目度): 172.05295776806773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work proposes a weakly-supervised temporal action localization
framework, called D2-Net, which strives to temporally localize actions using
video-level supervision. Our main contribution is the introduction of a novel
loss formulation, which jointly enhances the discriminability of latent
embeddings and robustness of the output temporal class activations with respect
to foreground-background noise caused by weak supervision. The proposed
formulation comprises a discriminative and a denoising loss term for enhancing
temporal action localization. The discriminative term incorporates a
classification loss and utilizes a top-down attention mechanism to enhance the
separability of latent foreground-background embeddings. The denoising loss
term explicitly addresses the foreground-background noise in class activations
by simultaneously maximizing intra-video and inter-video mutual information
using a bottom-up attention mechanism. As a result, activations in the
foreground regions are emphasized whereas those in the background regions are
suppressed, thereby leading to more robust predictions. Comprehensive
experiments are performed on two benchmarks: THUMOS14 and ActivityNet1.2. Our
D2-Net performs favorably in comparison to the existing methods on both
datasets, achieving gains as high as 3.6% in terms of mean average precision on
THUMOS14.
- Abstract(参考訳): 本研究は,映像レベルの監視による動作の時間的ローカライズを目的とした,D2-Netと呼ばれる時間的行動ローカライズフレームワークを提案する。
我々の主な貢献は、低監督による前景背景雑音に対する遅延埋め込みの識別性と出力時間的階級活性化の堅牢性を共同で強化する新しい損失定式化の導入である。
提案する定式化は、時間的行動局在を高めるための識別的および認知的損失項を含む。
判別用語は分類損失を組み込んでおり、トップダウンアテンション機構を利用して潜在前景バックグラウンド埋め込みの分離性を高める。
消音損失項はボトムアップアテンション機構を用いてビデオ内およびビデオ間相互情報を最大化することにより、クラスアクティベーションにおける前景バックグラウンドノイズに明示的に対処する。
その結果、背景領域の活性化が強調され、背景領域の活性化が抑制され、より堅牢な予測が導かれる。
THUMOS14とActivityNet1.2の2つのベンチマークで包括的な実験が行われた。
我々のD2-Netは、両方のデータセットの既存の手法と比較して良好に動作し、THUMOS14の平均的な精度で最大3.6%のゲインを達成した。
関連論文リスト
- Motion-Scenario Decoupling for Rat-Aware Video Position Prediction:
Strategy and Benchmark [49.58762201363483]
本研究では,個人や環境の影響要因を考慮し,生物ロボットの動き予測データセットであるRatPoseを紹介する。
本稿では,シナリオ指向とモーション指向を効果的に分離するDual-stream Motion-Scenario Decouplingフレームワークを提案する。
難易度が異なるタスクに対して,提案したtextitDMSD フレームワークの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-05-17T14:14:31Z) - Multi-modal Prompting for Low-Shot Temporal Action Localization [95.19505874963751]
低ショット(ゼロショット・少数ショット)シナリオ下での時間的行動局所化の問題点を考察する。
クラスに依存しない2段階のアクションローカライズアーキテクチャをTransformerに導入し,その後にオープン語彙分類を行った。
論文 参考訳(メタデータ) (2023-03-21T10:40:13Z) - Dilation-Erosion for Single-Frame Supervised Temporal Action
Localization [28.945067347089825]
本稿では,Snippet分類モデルとDilation-Erosionモジュールについて述べる。
Dilation-Erosionモジュールは、擬似スニペットレベルの地上構造、硬い背景、明らかな背景をマイニングする。
THUMOS14とActivityNet 1.2の実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-12-13T03:05:13Z) - Locality-aware Attention Network with Discriminative Dynamics Learning
for Weakly Supervised Anomaly Detection [0.8883733362171035]
本稿では,2つの目的関数,すなわち動的ランク付け損失と動的アライメント損失の識別的ダイナミクス学習(DDL)手法を提案する。
局所性認識型注意ネットワーク(LA-Net)は,大域的相関を捉え,スニペット間の位置選好を補正するために構築され,その後,因果畳み込みを伴う多層パーセプトロンにより異常スコアを得る。
論文 参考訳(メタデータ) (2022-08-11T04:27:33Z) - Forcing the Whole Video as Background: An Adversarial Learning Strategy
for Weakly Temporal Action Localization [6.919243767837342]
疑似バックグラウンドスニペットのマイニングの限界を打破する逆学習戦略を提案する。
親和性スニペットの時間的関係を構築するために,新しい時間的拡張ネットワークが設計されている。
論文 参考訳(メタデータ) (2022-07-14T05:13:50Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Action Shuffling for Weakly Supervised Temporal Localization [22.43209053892713]
本稿では,行動の秩序感応性と位置感応性を解析する。
それらを自己拡張学習フレームワークに具体化し、弱教師付きアクションローカライゼーション性能を改善する。
論文 参考訳(メタデータ) (2021-05-10T09:05:58Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Two-Stream Consensus Network for Weakly-Supervised Temporal Action
Localization [94.37084866660238]
本稿では,これらの課題を同時に解決するためのTwo-Stream Consensus Network(TSCN)を提案する。
提案したTSCNは,フレームレベルの疑似地上真実を反復的に更新する反復的精錬訓練手法を特徴とする。
本稿では,2進選択のように振る舞うように注意を喚起し,アクションインスタンス境界の正確な局所化を促進するために,新たな注意正規化損失を提案する。
論文 参考訳(メタデータ) (2020-10-22T10:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。