論文の概要: Progressive Attention on Multi-Level Dense Difference Maps for Generic
Event Boundary Detection
- arxiv url: http://arxiv.org/abs/2112.04771v1
- Date: Thu, 9 Dec 2021 09:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 14:58:16.183899
- Title: Progressive Attention on Multi-Level Dense Difference Maps for Generic
Event Boundary Detection
- Title(参考訳): 事象境界検出のための多層距離差マップの進歩的注意
- Authors: Jiaqi Tang, Zhaoyang Liu, Chen Qian, Wayne Wu, Limin Wang
- Abstract要約: ジェネリックイベント境界検出はビデオ理解において重要な課題である。
本稿では、イベント境界の多様性と複雑な意味論に取り組むために、効果的でエンドツーエンドの学習可能なフレームワーク(DDM-Net)を提案する。
- 参考スコア(独自算出の注目度): 35.16241630620967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generic event boundary detection is an important yet challenging task in
video understanding, which aims at detecting the moments where humans naturally
perceive event boundaries. The main challenge of this task is perceiving
various temporal variations of diverse event boundaries. To this end, this
paper presents an effective and end-to-end learnable framework (DDM-Net). To
tackle the diversity and complicated semantics of event boundaries, we make
three notable improvements. First, we construct a feature bank to store
multi-level features of space and time, prepared for difference calculation at
multiple scales. Second, to alleviate inadequate temporal modeling of previous
methods, we present dense difference maps (DDM) to comprehensively characterize
the motion pattern. Finally, we exploit progressive attention on multi-level
DDM to jointly aggregate appearance and motion clues. As a result, DDM-Net
respectively achieves a significant boost of 14% and 8% on Kinetics-GEBD and
TAPOS benchmark, and outperforms the top-1 winner solution of LOVEU
Challenge@CVPR 2021 without bells and whistles. The state-of-the-art result
demonstrates the effectiveness of richer motion representation and more
sophisticated aggregation, in handling the diversity of generic event boundary
detection. Our codes will be made available soon.
- Abstract(参考訳): ジェネリックイベント境界検出は,人間が自然にイベント境界を知覚する瞬間を検出することを目的とした,ビデオ理解における重要な課題である。
このタスクの主な課題は、さまざまなイベント境界の時間的変動を認識することである。
そこで本稿では,効率的なエンドツーエンド学習フレームワーク(ddm-net)を提案する。
イベントバウンダリの多様性と複雑なセマンティクスに取り組むために、注目すべき改善点は3つある。
まず,空間と時間の多段階的特徴を格納する特徴バンクを構築し,差分計算を複数スケールで行う。
第2に,前手法の不適切な時空間モデリングを緩和するために,ddmを用いて運動パターンの包括的特徴付けを行う。
最後に,多レベルDDMの進行的注意を利用して外観と動きの手がかりを共同で収集する。
その結果、ddm-netは、それぞれkinetics-gebdベンチマークとtaposベンチマークで14%と8%の大幅な向上を達成し、ベルやホイッスルなしでloveu challenge@cvpr 2021の優勝ソリューションを上回っている。
その結果、よりリッチな動き表現とより洗練された集約の有効性が示され、汎用的な事象境界検出の多様性を扱うことができる。
私たちのコードはもうすぐ利用可能になるでしょう。
関連論文リスト
- EventAug: Multifaceted Spatio-Temporal Data Augmentation Methods for Event-based Learning [15.727918674166714]
イベントカメラは、低レイテンシと高ダイナミックレンジのため、幅広い領域で大きな成功を収めている。
しかし、コミュニティはデータ不足や多様性の制限といった課題に直面しており、多くの場合、過度に適合し、機能学習が不十分になる。
本研究は,空間的時間的多様性を高めるために,EventAugという体系的な拡張スキームを導入することを目的とする。
論文 参考訳(メタデータ) (2024-09-18T09:01:34Z) - Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - Fine-grained Dynamic Network for Generic Event Boundary Detection [9.17191007695011]
そこで我々は,DyBDetという汎用イベント境界のための新しい動的パイプラインを提案する。
マルチエグジットネットワークアーキテクチャを導入することで、DyBDetは、異なるビデオスニペットへのアロケーションを自動的に学習する。
Kinetics-GEBD と TAPOS のデータセットに挑戦する実験では、動的戦略の採用が GEBD タスクに大きく貢献することを示した。
論文 参考訳(メタデータ) (2024-07-05T06:02:46Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - One for All: An End-to-End Compact Solution for Hand Gesture Recognition [8.321276216978637]
本稿では,手動ジェスチャー認識のための細粒度特徴注意ネットワーク(Fit-Hand)をエンド・ツー・エンドのコンパクトCNNフレームワークとして提案する。
提案されたアーキテクチャのパイプラインは、FineFeatモジュールと拡張畳み込み層(Conv)の2つの主要なユニットで構成されています。
Fit-Handの有効性は、7つのベンチマークデータセット上の主観依存(SD)および主観独立(SI)検証セットアップを使用して評価される。
論文 参考訳(メタデータ) (2021-05-15T05:10:47Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Dense Scene Multiple Object Tracking with Box-Plane Matching [73.54369833671772]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要なタスクである。
密集したシーンにおけるMOT性能を改善するために,Box-Plane Matching (BPM)法を提案する。
3つのモジュールの有効性により、ACM MM Grand Challenge HiEve 2020において、私たちのチームはトラック1のリーダーボードで1位を獲得しました。
論文 参考訳(メタデータ) (2020-07-30T16:39:22Z) - DFNet: Discriminative feature extraction and integration network for
salient object detection [6.959742268104327]
畳み込みニューラルネットワークを用いた唾液度検出における課題の2つの側面に焦点をあてる。
第一に、様々な大きさに有能な物体が現れるため、単一スケールの畳み込みは適切な大きさを捉えない。
第二に、マルチレベル機能の使用は、モデルがローカルコンテキストとグローバルコンテキストの両方を使用するのに役立つ。
論文 参考訳(メタデータ) (2020-04-03T13:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。