論文の概要: Leveraging the Video-level Semantic Consistency of Event for
Audio-visual Event Localization
- arxiv url: http://arxiv.org/abs/2210.05242v1
- Date: Tue, 11 Oct 2022 08:15:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:20:36.117012
- Title: Leveraging the Video-level Semantic Consistency of Event for
Audio-visual Event Localization
- Title(参考訳): 音声視覚イベントの局所化における映像レベルのセマンティック一貫性の活用
- Authors: Yuanyuan Jiang, Jianqin Yin, Yonghao Dang
- Abstract要約: イベントセマンティック一貫性モデリング(ESCM)モジュールは、イベントの動画レベルのセマンティック一貫性を探索する。
CEREは、音声および視覚モジュールを含むビデオレベルでのイベントセマンティック表現を得るために提案される。
ISCEは、ビデオレベルのイベントセマンティック表現を事前の知識として捉え、各モダリティ内のイベントの意味的連続性に焦点を合わせる。
- 参考スコア(独自算出の注目度): 4.463581549386294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual event localization has attracted much attention in recent years.
Most existing methods are often limited to independently encoding and
classifying each video segment separated from the full video (which can be
regarded as the segment-level representations of events). However, they ignore
the semantic consistency of the event within the same full video (which can be
considered as the video-level representations of events). In contrast to
existing methods, we propose a novel video-level semantic consistency guidance
network for the AVE task. Specifically, we propose an event semantic
consistency modeling (ESCM) module to explore the video-level semantic
consistency of events. It consists of two components: cross-modal event
representation extractor (CERE) and intra-modal semantic consistency enhancer
(ISCE). CERE is proposed to obtain the event semantic representation at the
video level including, audio and visual modules. Furthermore, ISCE takes the
video-level event semantic representation as the prior knowledge to guide the
model to focus on the semantic continuity of the event within each modality.
Moreover, we propose a new negative pair filter loss to encourage the network
to filter out the irrelevant segment pairs and a new smooth loss to further
increase the gap between different categories of events under the
weakly-supervised setting. We perform extensive experiments on the public AVE
dataset and outperform the state-of-the-art methods in both fully and weakly
supervised settings, thus verifying the effectiveness of our method.
- Abstract(参考訳): 近年,視聴覚イベントのローカライゼーションが注目されている。
既存の方法のほとんどは、ビデオ全体から分離した各ビデオセグメントを独立してエンコードし、分類することに限定されることが多い(イベントのセグメントレベルの表現と見なすこともできる)。
しかし、同じフルビデオ内のイベントのセマンティックな一貫性を無視する(これはイベントの動画レベルの表現と見なすことができる)。
本稿では,既存の手法とは対照的に,avタスクのための映像レベルの意味的一貫性ガイダンスネットワークを提案する。
具体的には,イベントの映像レベルのセマンティクス一貫性を探索するイベントセマンティクス一貫性モデリング(escm)モジュールを提案する。
クロスモーダルイベント表現抽出器(CERE)とイントラモーダルセマンティック一貫性増強器(ISCE)の2つのコンポーネントから構成される。
CEREは、音声および視覚モジュールを含むビデオレベルでのイベントセマンティック表現を得るために提案される。
さらに、ISCEは、ビデオレベルのイベントセマンティック表現を事前知識として捉え、各モード内のイベントの意味的連続性に焦点を合わせる。
さらに,ネットワークが無関係なセグメントペアをフィルタする新たな負のペアフィルタ損失と,弱い教師付き設定下でのイベントのカテゴリ間のギャップをさらに増加させるための新しい平滑な損失を提案する。
我々は,公開avデータセット上で広範囲な実験を行い,完全かつ弱い教師付き設定において最先端の手法よりも優れており,提案手法の有効性を検証している。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Generating Event-oriented Attribution for Movies via Two-Stage Prefix-Enhanced Multimodal LLM [47.786978666537436]
本稿では,2段階の事前修正強化MLLM (TSPE) アプローチを提案する。
局所的な段階では、1つのクリップ内の関連するマルチモーダル情報にフォーカスするようモデルに誘導する対話対応プレフィックスを導入する。
グローバルな段階では、推論知識グラフを用いて関連するイベント間の接続を強化する。
論文 参考訳(メタデータ) (2024-09-14T08:30:59Z) - CACE-Net: Co-guidance Attention and Contrastive Enhancement for Effective Audio-Visual Event Localization [11.525177542345215]
CACE-Netは、音声信号だけで視覚情報を案内する既存の方法とは異なる。
本稿では、双方向の双方向の注意誘導を適応的に行うための、オーディオ-視覚協調誘導機構を提案する。
AVEデータセットの実験では、CACE-Netがオーディオ視覚イベントローカライゼーションタスクに新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-08-04T07:48:12Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Event-aware Video Corpus Moment Retrieval [79.48249428428802]
Video Corpus Moment Retrieval(VCMR)は、未編集ビデオの膨大なコーパス内の特定の瞬間を特定することに焦点を当てた、実用的なビデオ検索タスクである。
VCMRの既存の方法は、典型的にはフレーム対応のビデオ検索に依存し、クエリとビデオフレーム間の類似性を計算して、ビデオをランク付けする。
本研究では,ビデオ検索の基本単位として,ビデオ内のイベントを明示的に活用するモデルであるEventFormerを提案する。
論文 参考訳(メタデータ) (2024-02-21T06:55:20Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Multi-Modulation Network for Audio-Visual Event Localization [138.14529518908736]
本研究では,映像中の可聴性と可視性の両方を有する音声視覚事象のローカライズの問題について検討する。
既存の作業は、セグメントレベルでのオーディオと視覚機能のエンコーディングと調整に重点を置いている。
本稿では、上記の相関関係を学習し、意味的ガイダンスとして活用する新しいマルチ変調ネットワーク(M2N)を提案する。
論文 参考訳(メタデータ) (2021-08-26T13:11:48Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。