論文の概要: Leveraging the Video-level Semantic Consistency of Event for
Audio-visual Event Localization
- arxiv url: http://arxiv.org/abs/2210.05242v1
- Date: Tue, 11 Oct 2022 08:15:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:20:36.117012
- Title: Leveraging the Video-level Semantic Consistency of Event for
Audio-visual Event Localization
- Title(参考訳): 音声視覚イベントの局所化における映像レベルのセマンティック一貫性の活用
- Authors: Yuanyuan Jiang, Jianqin Yin, Yonghao Dang
- Abstract要約: イベントセマンティック一貫性モデリング(ESCM)モジュールは、イベントの動画レベルのセマンティック一貫性を探索する。
CEREは、音声および視覚モジュールを含むビデオレベルでのイベントセマンティック表現を得るために提案される。
ISCEは、ビデオレベルのイベントセマンティック表現を事前の知識として捉え、各モダリティ内のイベントの意味的連続性に焦点を合わせる。
- 参考スコア(独自算出の注目度): 4.463581549386294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual event localization has attracted much attention in recent years.
Most existing methods are often limited to independently encoding and
classifying each video segment separated from the full video (which can be
regarded as the segment-level representations of events). However, they ignore
the semantic consistency of the event within the same full video (which can be
considered as the video-level representations of events). In contrast to
existing methods, we propose a novel video-level semantic consistency guidance
network for the AVE task. Specifically, we propose an event semantic
consistency modeling (ESCM) module to explore the video-level semantic
consistency of events. It consists of two components: cross-modal event
representation extractor (CERE) and intra-modal semantic consistency enhancer
(ISCE). CERE is proposed to obtain the event semantic representation at the
video level including, audio and visual modules. Furthermore, ISCE takes the
video-level event semantic representation as the prior knowledge to guide the
model to focus on the semantic continuity of the event within each modality.
Moreover, we propose a new negative pair filter loss to encourage the network
to filter out the irrelevant segment pairs and a new smooth loss to further
increase the gap between different categories of events under the
weakly-supervised setting. We perform extensive experiments on the public AVE
dataset and outperform the state-of-the-art methods in both fully and weakly
supervised settings, thus verifying the effectiveness of our method.
- Abstract(参考訳): 近年,視聴覚イベントのローカライゼーションが注目されている。
既存の方法のほとんどは、ビデオ全体から分離した各ビデオセグメントを独立してエンコードし、分類することに限定されることが多い(イベントのセグメントレベルの表現と見なすこともできる)。
しかし、同じフルビデオ内のイベントのセマンティックな一貫性を無視する(これはイベントの動画レベルの表現と見なすことができる)。
本稿では,既存の手法とは対照的に,avタスクのための映像レベルの意味的一貫性ガイダンスネットワークを提案する。
具体的には,イベントの映像レベルのセマンティクス一貫性を探索するイベントセマンティクス一貫性モデリング(escm)モジュールを提案する。
クロスモーダルイベント表現抽出器(CERE)とイントラモーダルセマンティック一貫性増強器(ISCE)の2つのコンポーネントから構成される。
CEREは、音声および視覚モジュールを含むビデオレベルでのイベントセマンティック表現を得るために提案される。
さらに、ISCEは、ビデオレベルのイベントセマンティック表現を事前知識として捉え、各モード内のイベントの意味的連続性に焦点を合わせる。
さらに,ネットワークが無関係なセグメントペアをフィルタする新たな負のペアフィルタ損失と,弱い教師付き設定下でのイベントのカテゴリ間のギャップをさらに増加させるための新しい平滑な損失を提案する。
我々は,公開avデータセット上で広範囲な実験を行い,完全かつ弱い教師付き設定において最先端の手法よりも優れており,提案手法の有効性を検証している。
関連論文リスト
- Event-aware Video Corpus Moment Retrieval [79.48249428428802]
Video Corpus Moment Retrieval(VCMR)は、未編集ビデオの膨大なコーパス内の特定の瞬間を特定することに焦点を当てた、実用的なビデオ検索タスクである。
VCMRの既存の方法は、典型的にはフレーム対応のビデオ検索に依存し、クエリとビデオフレーム間の類似性を計算して、ビデオをランク付けする。
本研究では,ビデオ検索の基本単位として,ビデオ内のイベントを明示的に活用するモデルであるEventFormerを提案する。
論文 参考訳(メタデータ) (2024-02-21T06:55:20Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Beyond Grounding: Extracting Fine-Grained Event Hierarchies Across
Modalities [43.048896440009784]
マルチモーダル(ビデオとテキスト)データからイベント階層を抽出するタスクを提案する。
これはイベントの構造を明らかにし、それらを理解するのに不可欠である。
我々は,この課題に対して,最先端のユニモーダルベースラインとマルチモーダルベースラインの限界を示す。
論文 参考訳(メタデータ) (2022-06-14T23:24:15Z) - Multi-Modulation Network for Audio-Visual Event Localization [138.14529518908736]
本研究では,映像中の可聴性と可視性の両方を有する音声視覚事象のローカライズの問題について検討する。
既存の作業は、セグメントレベルでのオーディオと視覚機能のエンコーディングと調整に重点を置いている。
本稿では、上記の相関関係を学習し、意味的ガイダンスとして活用する新しいマルチ変調ネットワーク(M2N)を提案する。
論文 参考訳(メタデータ) (2021-08-26T13:11:48Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。