論文の概要: Multi-Modulation Network for Audio-Visual Event Localization
- arxiv url: http://arxiv.org/abs/2108.11773v2
- Date: Mon, 30 Aug 2021 13:11:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 10:25:37.628630
- Title: Multi-Modulation Network for Audio-Visual Event Localization
- Title(参考訳): 視聴覚イベントローカライズのためのマルチモジュレーションネットワーク
- Authors: Hao Wang, Zheng-Jun Zha, Liang Li, Xuejin Chen, Jiebo Luo
- Abstract要約: 本研究では,映像中の可聴性と可視性の両方を有する音声視覚事象のローカライズの問題について検討する。
既存の作業は、セグメントレベルでのオーディオと視覚機能のエンコーディングと調整に重点を置いている。
本稿では、上記の相関関係を学習し、意味的ガイダンスとして活用する新しいマルチ変調ネットワーク(M2N)を提案する。
- 参考スコア(独自算出の注目度): 138.14529518908736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of localizing audio-visual events that are both audible
and visible in a video. Existing works focus on encoding and aligning audio and
visual features at the segment level while neglecting informative correlation
between segments of the two modalities and between multi-scale event proposals.
We propose a novel MultiModulation Network (M2N) to learn the above correlation
and leverage it as semantic guidance to modulate the related auditory, visual,
and fused features. In particular, during feature encoding, we propose
cross-modal normalization and intra-modal normalization. The former modulates
the features of two modalities by establishing and exploiting the cross-modal
relationship. The latter modulates the features of a single modality with the
event-relevant semantic guidance of the same modality. In the fusion stage,we
propose a multi-scale proposal modulating module and a multi-alignment segment
modulating module to introduce multi-scale event proposals and enable dense
matching between cross-modal segments. With the auditory, visual, and fused
features modulated by the correlation information regarding audio-visual
events, M2N performs accurate event localization. Extensive experiments
conducted on the AVE dataset demonstrate that our proposed method outperforms
the state of the art in both supervised event localization and cross-modality
localization.
- Abstract(参考訳): 本研究では,可聴性と可視性を兼ね備えた視聴覚イベントのローカライズについて検討する。
既存の作業は,2つのモードのセグメント間の情報的相関や,マルチスケールなイベントの提案を無視しながら,セグメントレベルでの音声と視覚の特徴の符号化と調整に重点を置いている。
以上の相関関係を学習し,それを意味指導として活用し,関連する聴覚・視覚・融合特徴を変調する新しいマルチ変調ネットワーク(M2N)を提案する。
特に特徴エンコーディングにおいて,クロスモーダル正規化とイントラモーダル正規化を提案する。
前者は、交叉モーダル関係を確立し、活用することにより、2つのモーダルの特徴を変調する。
後者は、同じモダリティのイベント関連セマンティックガイダンスで単一のモダリティの特徴を変調する。
融合段階では,マルチスケールのイベント提案を導入し,クロスモーダルセグメント間の密マッチングを可能にするマルチスケール提案変調モジュールとマルチアグリゲーションセグメント変調モジュールを提案する。
M2Nは、聴覚、視覚、融合の特徴を、音声・視覚イベントに関する相関情報によって変調することにより、正確なイベントローカライゼーションを行う。
AVEデータセット上で行った大規模な実験により,提案手法は,教師付きイベントの局所化と相互モダリティの局所化の両方において,最先端の手法であることがわかった。
関連論文リスト
- Generating Event-oriented Attribution for Movies via Two-Stage Prefix-Enhanced Multimodal LLM [47.786978666537436]
本稿では,2段階の事前修正強化MLLM (TSPE) アプローチを提案する。
局所的な段階では、1つのクリップ内の関連するマルチモーダル情報にフォーカスするようモデルに誘導する対話対応プレフィックスを導入する。
グローバルな段階では、推論知識グラフを用いて関連するイベント間の接続を強化する。
論文 参考訳(メタデータ) (2024-09-14T08:30:59Z) - Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
Dense-localization Audio-Visual Events (DAVE) は、未トリミングビデオで同時に見られるイベントの時間境界と対応するカテゴリを特定することを目的としている。
既存の手法では、音声と視覚の表現を明示的なモーダルなアライメント制約なしに別々に符号化する。
DAVEのための局所性を考慮したクロスモーダル対応学習フレームワークであるLOCOを提案する。
論文 参考訳(メタデータ) (2024-09-12T11:54:25Z) - CACE-Net: Co-guidance Attention and Contrastive Enhancement for Effective Audio-Visual Event Localization [11.525177542345215]
CACE-Netは、音声信号だけで視覚情報を案内する既存の方法とは異なる。
本稿では、双方向の双方向の注意誘導を適応的に行うための、オーディオ-視覚協調誘導機構を提案する。
AVEデータセットの実験では、CACE-Netがオーディオ視覚イベントローカライゼーションタスクに新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-08-04T07:48:12Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Cross-Modal Reasoning with Event Correlation for Video Question
Answering [32.332251488360185]
本稿では, 副次的・蒸留的事象関連情報として高密度キャプションモダリティを導入し, その正解を推測する。
我々は、モーダル間関係を明示的にモデル化し、異なるモーダル間で関連情報を集約するために、モーダル間推論モジュールを用いる。
質問指向および事象関連エビデンスを多段階推論により収集する,質問誘導型自己適応型マルチモーダル融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-20T02:30:39Z) - Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised
Audio-Visual Video Parsing [107.031903351176]
弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。
WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
論文 参考訳(メタデータ) (2023-07-05T05:55:10Z) - Accommodating Audio Modality in CLIP for Multimodal Processing [48.83906067348211]
視覚言語モデルCLIPを拡張し、視覚言語モデルAudioのマルチモーダル処理におけるオーディオモダリティに対応する。
具体的には、モーダル間およびモーダル内コントラスト学習を用いて、オーディオと他のモーダル間の相関について検討する。
提案するCLIP4VLAモデルは,ビデオ検索やビデオキャプションなど,さまざまな下流タスクで検証される。
論文 参考訳(メタデータ) (2023-03-12T06:57:01Z) - Leveraging the Video-level Semantic Consistency of Event for
Audio-visual Event Localization [8.530561069113716]
AVEローカライゼーションタスクのためのビデオレベルのセマンティック・コンセンサス・ガイダンス・ネットワークを提案する。
クロスモーダルなイベント表現抽出器と、モーダル内のセマンティック一貫性向上器の2つのコンポーネントから構成される。
我々は、パブリックなAVVデータセット上で広範な実験を行い、完全に教師された設定と弱い設定の両方において最先端の手法より優れています。
論文 参考訳(メタデータ) (2022-10-11T08:15:57Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。