Fugu-MT 論文翻訳(概要): Multi-Modulation Network for Audio-Visual Event Localization

論文の概要: Multi-Modulation Network for Audio-Visual Event Localization

arxiv url: http://arxiv.org/abs/2108.11773v1
Date: Thu, 26 Aug 2021 13:11:48 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-27 13:59:55.583412
Title: Multi-Modulation Network for Audio-Visual Event Localization
Title（参考訳）: 視聴覚イベントローカライズのためのマルチモジュレーションネットワーク
Authors: Hao Wang, Zheng-Jun Zha, Liang Li, Xuejin Chen, Jiebo Luo
Abstract要約: 本研究では,映像中の可聴性と可視性の両方を有する音声視覚事象のローカライズの問題について検討する。既存の作業は、セグメントレベルでのオーディオと視覚機能のエンコーディングと調整に重点を置いている。本稿では、上記の相関関係を学習し、意味的ガイダンスとして活用する新しいマルチ変調ネットワーク(M2N)を提案する。
参考スコア（独自算出の注目度）: 138.14529518908736
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study the problem of localizing audio-visual events that are both audible and visible in a video. Existing works focus on encoding and aligning audio and visual features at the segment level while neglecting informative correlation between segments of the two modalities and between multi-scale event proposals. We propose a novel MultiModulation Network (M2N) to learn the above correlation and leverage it as semantic guidance to modulate the related auditory, visual, and fused features. In particular, during feature encoding, we propose cross-modal normalization and intra-modal normalization. The former modulates the features of two modalities by establishing and exploiting the cross-modal relationship. The latter modulates the features of a single modality with the event-relevant semantic guidance of the same modality. In the fusion stage,we propose a multi-scale proposal modulating module and a multi-alignment segment modulating module to introduce multi-scale event proposals and enable dense matching between cross-modal segments. With the auditory, visual, and fused features modulated by the correlation information regarding audio-visual events, M2N performs accurate event localization. Extensive experiments conducted on the AVE dataset demonstrate that our proposed method outperforms the state of the art in both supervised event localization and cross-modality localization.
Abstract（参考訳）: 本研究では,可聴性と可視性を兼ね備えた視聴覚イベントのローカライズについて検討する。既存の作業は,2つのモードのセグメント間の情報的相関や,マルチスケールなイベントの提案を無視しながら,セグメントレベルでの音声と視覚の特徴の符号化と調整に重点を置いている。以上の相関関係を学習し,それを意味指導として活用し,関連する聴覚・視覚・融合特徴を変調する新しいマルチ変調ネットワーク(M2N)を提案する。特に特徴エンコーディングにおいて,クロスモーダル正規化とイントラモーダル正規化を提案する。前者は、交叉モーダル関係を確立し、活用することにより、2つのモーダルの特徴を変調する。後者は、同じモダリティのイベント関連セマンティックガイダンスで単一のモダリティの特徴を変調する。融合段階では,マルチスケールのイベント提案を導入し,クロスモーダルセグメント間の密マッチングを可能にするマルチスケール提案変調モジュールとマルチアグリゲーションセグメント変調モジュールを提案する。 M2Nは、聴覚、視覚、融合の特徴を、音声・視覚イベントに関する相関情報によって変調することにより、正確なイベントローカライゼーションを行う。 AVEデータセット上で行った大規模な実験により,提案手法は,教師付きイベントの局所化と相互モダリティの局所化の両方において,最先端の手法であることがわかった。

関連論文リスト

RMPL: Relation-aware Multi-task Progressive Learning with Stage-wise Training for Multimedia Event Extraction [8.874574211900562]
本稿では,マルチメディアイベント抽出のための多タスクプログレッシブラーニングフレームワークを提案する。 RMPLは、一様イベント抽出からの異種監視と、ステージワイドトレーニングによるマルチメディア関係抽出を取り入れている。複数のVLMを用いたM2E2ベンチマークの実験では、異なるモード設定で一貫した改善が見られた。
論文参考訳（メタデータ） (2026-02-14T12:43:25Z)
Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文参考訳（メタデータ） (2025-10-11T06:36:59Z)
ESG-Net: Event-Aware Semantic Guided Network for Dense Audio-Visual Event Localization [14.920403124245867]
マルチステージ・セマンティック・ガイダンスとマルチイベント・リレーション・モデリングを導入する。これにより、音声・視覚イベントの階層的セマンティック理解と、イベント依存の適応的抽出が可能になる。提案手法は,パラメータや計算負荷を大幅に削減しつつ,最先端の手法を大幅に超えている。
論文参考訳（メタデータ） (2025-07-14T05:42:00Z)
TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models [123.17643568298116]
本稿では,マルチモーダル基盤モデルの知識をテキスト化するための新しいフレームワークTAViSを提案する。これらのモデルを効果的に組み合わせることによって、SAM2とImageBind間の知識伝達の困難さと、監督のためにセグメンテーション損失のみを使用することの不十分さの2つの大きな課題が生じる。提案手法は,シングルソース,マルチソース,セマンティックデータセットにおいて優れた性能を示し,ゼロショット設定で優れる。
論文参考訳（メタデータ） (2025-06-13T03:19:47Z)
Dense Audio-Visual Event Localization under Cross-Modal Consistency and Multi-Temporal Granularity Collaboration [48.57159286673662]
本論文は、より長い未編集映像に対する音声・視覚的シーン理解の促進を目的としている。本稿では,Cross-Modal Consistency CollaborationとMulti-Temporal Granularity Collaborationの2つのコアモジュールからなる新しいCCNetを紹介する。 UnAV-100データセットの実験では、モジュール設計が検証され、高密度オーディオ視覚イベントのローカライゼーションにおける最先端のパフォーマンスが新たに向上した。
論文参考訳（メタデータ） (2024-12-17T07:43:36Z)
Generating Event-oriented Attribution for Movies via Two-Stage Prefix-Enhanced Multimodal LLM [47.786978666537436]
本稿では,2段階の事前修正強化MLLM (TSPE) アプローチを提案する。局所的な段階では、1つのクリップ内の関連するマルチモーダル情報にフォーカスするようモデルに誘導する対話対応プレフィックスを導入する。グローバルな段階では、推論知識グラフを用いて関連するイベント間の接続を強化する。
論文参考訳（メタデータ） (2024-09-14T08:30:59Z)
Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
Dense-localization Audio-Visual Events (DAVE) は、未トリミングビデオで同時に見られるイベントの時間境界と対応するカテゴリを特定することを目的としている。既存の手法では、音声と視覚の表現を明示的なモーダルなアライメント制約なしに別々に符号化する。 DAVEのための局所性を考慮したクロスモーダル対応学習フレームワークであるLOCOを提案する。
論文参考訳（メタデータ） (2024-09-12T11:54:25Z)
CACE-Net: Co-guidance Attention and Contrastive Enhancement for Effective Audio-Visual Event Localization [11.525177542345215]
CACE-Netは、音声信号だけで視覚情報を案内する既存の方法とは異なる。本稿では、双方向の双方向の注意誘導を適応的に行うための、オーディオ-視覚協調誘導機構を提案する。 AVEデータセットの実験では、CACE-Netがオーディオ視覚イベントローカライゼーションタスクに新しいベンチマークを設定している。
論文参考訳（メタデータ） (2024-08-04T07:48:12Z)
Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。 LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。 LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文参考訳（メタデータ） (2024-07-11T01:57:08Z)
Cross-Modal Reasoning with Event Correlation for Video Question Answering [32.332251488360185]
本稿では, 副次的・蒸留的事象関連情報として高密度キャプションモダリティを導入し, その正解を推測する。我々は、モーダル間関係を明示的にモデル化し、異なるモーダル間で関連情報を集約するために、モーダル間推論モジュールを用いる。質問指向および事象関連エビデンスを多段階推論により収集する,質問誘導型自己適応型マルチモーダル融合モジュールを提案する。
論文参考訳（メタデータ） (2023-12-20T02:30:39Z)
Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised Audio-Visual Video Parsing [107.031903351176]
弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。 WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
論文参考訳（メタデータ） (2023-07-05T05:55:10Z)
Accommodating Audio Modality in CLIP for Multimodal Processing [48.83906067348211]
視覚言語モデルCLIPを拡張し、視覚言語モデルAudioのマルチモーダル処理におけるオーディオモダリティに対応する。具体的には、モーダル間およびモーダル内コントラスト学習を用いて、オーディオと他のモーダル間の相関について検討する。提案するCLIP4VLAモデルは,ビデオ検索やビデオキャプションなど,さまざまな下流タスクで検証される。
論文参考訳（メタデータ） (2023-03-12T06:57:01Z)
Leveraging the Video-level Semantic Consistency of Event for Audio-visual Event Localization [8.530561069113716]
AVEローカライゼーションタスクのためのビデオレベルのセマンティック・コンセンサス・ガイダンス・ネットワークを提案する。クロスモーダルなイベント表現抽出器と、モーダル内のセマンティック一貫性向上器の2つのコンポーネントから構成される。我々は、パブリックなAVVデータセット上で広範な実験を行い、完全に教師された設定と弱い設定の両方において最先端の手法より優れています。
論文参考訳（メタデータ） (2022-10-11T08:15:57Z)
Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文参考訳（メタデータ） (2020-07-28T12:40:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。