論文の概要: Boundary-Denoising for Video Activity Localization
- arxiv url: http://arxiv.org/abs/2304.02934v1
- Date: Thu, 6 Apr 2023 08:48:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 14:46:59.938132
- Title: Boundary-Denoising for Video Activity Localization
- Title(参考訳): 映像アクティビティローカライズのための境界デオライズ
- Authors: Mengmeng Xu, Mattia Soldan, Jialin Gao, Shuming Liu, Juan-Manuel
P\'erez-R\'ua, Bernard Ghanem
- Abstract要約: 本稿では,映像活動のローカライゼーション問題について,認知的視点から検討する。
具体的には,DenoiseLocというエンコーダデコーダモデルを提案する。
実験によると、DenoiseLocはいくつかのビデオアクティビティ理解タスクで%前進している。
- 参考スコア(独自算出の注目度): 57.9973253014712
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video activity localization aims at understanding the semantic content in
long untrimmed videos and retrieving actions of interest. The retrieved action
with its start and end locations can be used for highlight generation, temporal
action detection, etc. Unfortunately, learning the exact boundary location of
activities is highly challenging because temporal activities are continuous in
time, and there are often no clear-cut transitions between actions. Moreover,
the definition of the start and end of events is subjective, which may confuse
the model. To alleviate the boundary ambiguity, we propose to study the video
activity localization problem from a denoising perspective. Specifically, we
propose an encoder-decoder model named DenoiseLoc. During training, a set of
action spans is randomly generated from the ground truth with a controlled
noise scale. Then we attempt to reverse this process by boundary denoising,
allowing the localizer to predict activities with precise boundaries and
resulting in faster convergence speed. Experiments show that DenoiseLoc
advances %in several video activity understanding tasks. For example, we
observe a gain of +12.36% average mAP on QV-Highlights dataset and +1.64%
mAP@0.5 on THUMOS'14 dataset over the baseline. Moreover, DenoiseLoc achieves
state-of-the-art performance on TACoS and MAD datasets, but with much fewer
predictions compared to other current methods.
- Abstract(参考訳): ビデオアクティビティローカライゼーション(video activity localization)は、長い未検索ビデオのセマンティックコンテンツの理解と、興味のあるアクションの検索を目的とする。
検索されたアクションの開始位置と終了位置は、ハイライト生成や時間的アクション検出などに使用することができる。
残念ながら、時間的活動は時間的に連続しており、アクション間の明確な切り替わりがないため、アクティビティの正確な境界位置を知ることは非常に難しい。
さらに、イベントの開始と終了の定義は主観的であり、モデルが混乱する可能性がある。
境界の曖昧さを軽減するために,視覚的視点から映像活動のローカライゼーション問題を研究することを提案する。
具体的には,DenoiseLocというエンコーダデコーダモデルを提案する。
トレーニング中、一組のアクションスパンは、制御されたノイズスケールで地上の真実からランダムに生成される。
次に,この過程を境界除算によって逆転し,局所化器が正確な境界を持つアクティビティを予測できるようにし,収束速度を高速化する。
実験によると、DenoiseLocはいくつかのビデオアクティビティ理解タスクで%前進している。
例えば、QV-Highlightsデータセットでは平均mAPが+12.36%、THUMOS'14データセットでは+1.64%mAP@0.5の増加が観測されている。
さらに、DenoiseLocはTACoSやMADデータセット上での最先端のパフォーマンスを実現しているが、現在の方法に比べて予測ははるかに少ない。
関連論文リスト
- FMI-TAL: Few-shot Multiple Instances Temporal Action Localization by Probability Distribution Learning and Interval Cluster Refinement [2.261014973523156]
本稿では,確率学習とクラスタリファインメントを備えた空間チャネル関係変換器を提案する。
この方法は,クエリビデオ中のアクションの開始と終了の境界を正確に識別することができる。
本モデルでは,ベンチマークデータセットである ActivityNet1.3 と THUMOS14 を用いて,厳密な実験を行うことで,競争性能を実現する。
論文 参考訳(メタデータ) (2024-08-25T08:17:25Z) - Disentangle and denoise: Tackling context misalignment for video moment retrieval [16.939535169282262]
Video Moment Retrievalは、自然言語クエリに従ってコンテキスト内のビデオモーメントを見つけることを目的としている。
本稿では,正確なモーダル・モーダル・コンテクスト・デノイング・ネットワーク(CDNet)を提案する。
論文 参考訳(メタデータ) (2024-08-14T15:00:27Z) - DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion [137.8749239614528]
そこで我々は,時間的行動検出(TAD)の新しい定式化を提案し,拡散を抑えるDiffTADを提案する。
入力されたランダムな時間的提案を考慮すれば、トリミングされていない長いビデオが与えられたアクションの提案を正確に得ることができる。
論文 参考訳(メタデータ) (2023-03-27T00:40:52Z) - TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and
Clustering [27.52568444236988]
本稿では,教師なしの動画シーケンスからアクションクラスを学習するための教師なしアプローチを提案する。
特に,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。
識別されたクラスタに基づいて、ビデオは意味論的に意味のあるアクションクラスに対応するコヒーレントな時間セグメントにデコードする。
論文 参考訳(メタデータ) (2023-03-09T10:46:23Z) - FineAction: A Fined Video Dataset for Temporal Action Localization [60.90129329728657]
FineActionは、既存のビデオデータセットとWebビデオから収集された、新しい大規模なファインドビデオデータセットである。
このデータセットには、106のアクションカテゴリにまたがる約17Kの未トリミングビデオに高密度にアノテートされた139Kのアクションインスタンスが含まれている。
実験結果から,FineActionは短い期間のファインドおよびマルチラベルインスタンス上でのアクションローカライゼーションに新たな課題をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2021-05-24T06:06:32Z) - Boundary-sensitive Pre-training for Temporal Localization in Videos [124.40788524169668]
本稿では,時間的局所化のためのモデル事前学習について,新しい境界感性プレテキスト(BSP)タスクを導入して検討する。
合成された境界により、BSPは境界型を分類することで簡単に実行できる。
大規模な実験により、提案したBSPは既存の行動分類に基づく事前学習法よりも優れ、相補的であることが示された。
論文 参考訳(メタデータ) (2020-11-21T17:46:24Z) - A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion
Compensation for Action Recognition in the EPIC-Kitchens Dataset [68.8204255655161]
行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。
エゴモーション記録シーケンスは重要な関連性を持つようになった。
提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
論文 参考訳(メタデータ) (2020-08-26T14:44:45Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z) - Weakly Supervised Temporal Action Localization Using Deep Metric
Learning [12.49814373580862]
本稿では,トレーニング中の映像レベルのアクションインスタンスのみを統括する時間的行動ローカライズ手法を提案する。
標準バックプロパゲーションアルゴリズムを用いて,バランスの取れた2進クロスエントロピー損失とメートル法損失を共同で最適化する。
IoU閾値0.5でTHUMOS14を6.5%mAP改善し,ActivityNet1.2の競合性能を実現した。
論文 参考訳(メタデータ) (2020-01-21T22:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。