Fugu-MT 論文翻訳(概要): Leveraging the Video-level Semantic Consistency of Event for Audio-visual Event Localization

論文の概要: Leveraging the Video-level Semantic Consistency of Event for Audio-visual Event Localization

arxiv url: http://arxiv.org/abs/2210.05242v1
Date: Tue, 11 Oct 2022 08:15:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-12 14:20:36.117012
Title: Leveraging the Video-level Semantic Consistency of Event for Audio-visual Event Localization
Title（参考訳）: 音声視覚イベントの局所化における映像レベルのセマンティック一貫性の活用
Authors: Yuanyuan Jiang, Jianqin Yin, Yonghao Dang
Abstract要約: イベントセマンティック一貫性モデリング(ESCM)モジュールは、イベントの動画レベルのセマンティック一貫性を探索する。 CEREは、音声および視覚モジュールを含むビデオレベルでのイベントセマンティック表現を得るために提案される。 ISCEは、ビデオレベルのイベントセマンティック表現を事前の知識として捉え、各モダリティ内のイベントの意味的連続性に焦点を合わせる。
参考スコア（独自算出の注目度）: 4.463581549386294
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Audio-visual event localization has attracted much attention in recent years. Most existing methods are often limited to independently encoding and classifying each video segment separated from the full video (which can be regarded as the segment-level representations of events). However, they ignore the semantic consistency of the event within the same full video (which can be considered as the video-level representations of events). In contrast to existing methods, we propose a novel video-level semantic consistency guidance network for the AVE task. Specifically, we propose an event semantic consistency modeling (ESCM) module to explore the video-level semantic consistency of events. It consists of two components: cross-modal event representation extractor (CERE) and intra-modal semantic consistency enhancer (ISCE). CERE is proposed to obtain the event semantic representation at the video level including, audio and visual modules. Furthermore, ISCE takes the video-level event semantic representation as the prior knowledge to guide the model to focus on the semantic continuity of the event within each modality. Moreover, we propose a new negative pair filter loss to encourage the network to filter out the irrelevant segment pairs and a new smooth loss to further increase the gap between different categories of events under the weakly-supervised setting. We perform extensive experiments on the public AVE dataset and outperform the state-of-the-art methods in both fully and weakly supervised settings, thus verifying the effectiveness of our method.
Abstract（参考訳）: 近年,視聴覚イベントのローカライゼーションが注目されている。既存の方法のほとんどは、ビデオ全体から分離した各ビデオセグメントを独立してエンコードし、分類することに限定されることが多い(イベントのセグメントレベルの表現と見なすこともできる)。しかし、同じフルビデオ内のイベントのセマンティックな一貫性を無視する(これはイベントの動画レベルの表現と見なすことができる)。本稿では,既存の手法とは対照的に,avタスクのための映像レベルの意味的一貫性ガイダンスネットワークを提案する。具体的には,イベントの映像レベルのセマンティクス一貫性を探索するイベントセマンティクス一貫性モデリング(escm)モジュールを提案する。クロスモーダルイベント表現抽出器(CERE)とイントラモーダルセマンティック一貫性増強器(ISCE)の2つのコンポーネントから構成される。 CEREは、音声および視覚モジュールを含むビデオレベルでのイベントセマンティック表現を得るために提案される。さらに、ISCEは、ビデオレベルのイベントセマンティック表現を事前知識として捉え、各モード内のイベントの意味的連続性に焦点を合わせる。さらに,ネットワークが無関係なセグメントペアをフィルタする新たな負のペアフィルタ損失と,弱い教師付き設定下でのイベントのカテゴリ間のギャップをさらに増加させるための新しい平滑な損失を提案する。我々は,公開avデータセット上で広範囲な実験を行い,完全かつ弱い教師付き設定において最先端の手法よりも優れており,提案手法の有効性を検証している。

関連論文リスト

ESG-Net: Event-Aware Semantic Guided Network for Dense Audio-Visual Event Localization [14.920403124245867]
マルチステージ・セマンティック・ガイダンスとマルチイベント・リレーション・モデリングを導入する。これにより、音声・視覚イベントの階層的セマンティック理解と、イベント依存の適応的抽出が可能になる。提案手法は,パラメータや計算負荷を大幅に削減しつつ,最先端の手法を大幅に超えている。
論文参考訳（メタデータ） (2025-07-14T05:42:00Z)
Dense Video Captioning using Graph-based Sentence Summarization [80.52481563888459]
本稿では,高密度映像キャプションのためのグラフベースの分割・要約フレームワークを提案する。本稿では,要約の段階に着目し,要約のための意味語間の関係を効果的に活用する枠組みを提案する。
論文参考訳（メタデータ） (2025-06-25T16:23:43Z)
Multimodal Class-aware Semantic Enhancement Network for Audio-Visual Video Parsing [22.655045848201528]
各オーディオ/視覚セグメントの正確なイベントセマンティクスの取得が不可欠である。各セグメントは複数のイベントを含むことができ、結果として意味的に混合された全体的特徴をもたらす。内部および相互関係を符号化するファイングラインド・セマンティック・エンハンスメント・モジュールを提案する。
論文参考訳（メタデータ） (2024-12-15T16:54:53Z)
Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。 OV-AVEBenchデータセットを提案する。
論文参考訳（メタデータ） (2024-11-18T04:35:20Z)
Generating Event-oriented Attribution for Movies via Two-Stage Prefix-Enhanced Multimodal LLM [47.786978666537436]
本稿では,2段階の事前修正強化MLLM (TSPE) アプローチを提案する。局所的な段階では、1つのクリップ内の関連するマルチモーダル情報にフォーカスするようモデルに誘導する対話対応プレフィックスを導入する。グローバルな段階では、推論知識グラフを用いて関連するイベント間の接続を強化する。
論文参考訳（メタデータ） (2024-09-14T08:30:59Z)
CACE-Net: Co-guidance Attention and Contrastive Enhancement for Effective Audio-Visual Event Localization [11.525177542345215]
CACE-Netは、音声信号だけで視覚情報を案内する既存の方法とは異なる。本稿では、双方向の双方向の注意誘導を適応的に行うための、オーディオ-視覚協調誘導機構を提案する。 AVEデータセットの実験では、CACE-Netがオーディオ視覚イベントローカライゼーションタスクに新しいベンチマークを設定している。
論文参考訳（メタデータ） (2024-08-04T07:48:12Z)
Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。 LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。 LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文参考訳（メタデータ） (2024-07-11T01:57:08Z)
Event-aware Video Corpus Moment Retrieval [79.48249428428802]
Video Corpus Moment Retrieval(VCMR)は、未編集ビデオの膨大なコーパス内の特定の瞬間を特定することに焦点を当てた、実用的なビデオ検索タスクである。 VCMRの既存の方法は、典型的にはフレーム対応のビデオ検索に依存し、クエリとビデオフレーム間の類似性を計算して、ビデオをランク付けする。本研究では,ビデオ検索の基本単位として,ビデオ内のイベントを明示的に活用するモデルであるEventFormerを提案する。
論文参考訳（メタデータ） (2024-02-21T06:55:20Z)
Learning Grounded Vision-Language Representation for Versatile Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文参考訳（メタデータ） (2023-03-11T11:00:16Z)
Multi-Modulation Network for Audio-Visual Event Localization [138.14529518908736]
本研究では,映像中の可聴性と可視性の両方を有する音声視覚事象のローカライズの問題について検討する。既存の作業は、セグメントレベルでのオーディオと視覚機能のエンコーディングと調整に重点を置いている。本稿では、上記の相関関係を学習し、意味的ガイダンスとして活用する新しいマルチ変調ネットワーク(M2N)を提案する。
論文参考訳（メタデータ） (2021-08-26T13:11:48Z)
EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文参考訳（メタデータ） (2021-07-22T15:57:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。