論文の概要: Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization
- arxiv url: http://arxiv.org/abs/2409.07967v2
- Date: Tue, 18 Feb 2025 16:22:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:02:04.498777
- Title: Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization
- Title(参考訳): 濃密な視覚事象の局所化のための局所性を考慮したクロスモーダル対応学習
- Authors: Ling Xing, Hongyu Qu, Rui Yan, Xiangbo Shu, Jinhui Tang,
- Abstract要約: オーディオ・ビジュアル・イベント(DAVE)のための局所性を考慮したクロスモーダル対応学習フレームワークLoCoについて述べる。
LoCo は局所性対応対応補正 (LCC) を非モーダル特徴に適用する。
さらにクロスモーダル・ダイナミック・パーセプション・レイヤ(CDP)をクロスモーダル・フィーチャー・ピラミッドでカスタマイズし、音声視覚イベントの局所的時間パターンを理解する。
- 参考スコア(独自算出の注目度): 50.122441710500055
- License:
- Abstract: Dense-localization Audio-Visual Events (DAVE) aims to identify time boundaries and corresponding categories for events that can be heard and seen concurrently in an untrimmed video. Existing DAVE solutions extract audio and visual features through modality-specific encoders and fuse them via dense cross-attention. The independent processing of each modality neglects their complementarity, resulting in modality-specific noise, while dense attention fails to account for local temporal continuity of events, causing irrelevant signal distractions. In this paper, we present LoCo, a Locality-aware cross-modal Correspondence learning framework for DAVE. The core idea is to explore local temporal continuity nature of audio-visual events, which serves as informative yet free supervision signals to guide the filtering of irrelevant information and inspire the extraction of complementary multimodal information during both unimodal and cross-modal learning stages. i) Specifically, LoCo applies Locality-aware Correspondence Correction (LCC) to unimodal features via leveraging cross-modal local-correlated properties without any extra annotations. This enforces unimodal encoders to highlight similar semantics shared by audio and visual features. ii) To better aggregate such audio and visual features, we further customize Cross-modal Dynamic Perception layer (CDP) in cross-modal feature pyramid to understand local temporal patterns of audio-visual events by imposing local consistency within multimodal features in a data-driven manner. By incorporating LCC and CDP, LoCo provides solid performance gains and outperforms existing DAVE methods.
- Abstract(参考訳): Dense-localization Audio-Visual Events (DAVE) は、未トリミングビデオで同時に見られるイベントの時間境界と対応するカテゴリを特定することを目的としている。
既存のDAVEソリューションは、モーダリティ固有のエンコーダを通じてオーディオや視覚的特徴を抽出し、密接なクロスアテンションを介して融合する。
それぞれのモダリティの独立な処理は相補性を無視し、モダリティ固有のノイズをもたらすが、密集した注意は事象の局所的な時間的連続を考慮せず、無関係な信号の乱れを引き起こす。
本稿では,局所性を考慮したDAVE用クロスモーダル対応学習フレームワークであるLoCoを紹介する。
中心となる考え方は、視覚的事象の局所的時間的連続性を探求することであり、これは情報的かつ自由な監視信号として機能し、無関係な情報のフィルタリングを誘導し、一助的および横断的な学習段階における相補的なマルチモーダル情報の抽出を促すことである。
i) 特に、LoCoは、追加のアノテーションを使わずに、モダル横断的な局所関連プロパティを活用することにより、非モダル特徴に対してLocality-Aware Correspondence Correction (LCC)を適用します。
これにより、音声や視覚的特徴によって共有される同様のセマンティクスを強調表示するように、ユニモーダルエンコーダを強制する。
ii)このような音声や視覚的特徴をよりよく集約するために、クロスモーダル特徴ピラミッドにおけるクロスモーダル動的知覚層(CDP)をさらにカスタマイズし、データ駆動方式でマルチモーダル特徴の局所的一貫性を付与することにより、オーディオ視覚事象の局所的時間パターンを理解する。
LCCとCDPを組み込むことで、LoCoはパフォーマンスをしっかりと向上し、既存のDAVEメソッドより優れている。
関連論文リスト
- Dense Audio-Visual Event Localization under Cross-Modal Consistency and Multi-Temporal Granularity Collaboration [48.57159286673662]
本論文は、より長い未編集映像に対する音声・視覚的シーン理解の促進を目的としている。
本稿では,Cross-Modal Consistency CollaborationとMulti-Temporal Granularity Collaborationの2つのコアモジュールからなる新しいCCNetを紹介する。
UnAV-100データセットの実験では、モジュール設計が検証され、高密度オーディオ視覚イベントのローカライゼーションにおける最先端のパフォーマンスが新たに向上した。
論文 参考訳(メタデータ) (2024-12-17T07:43:36Z) - CACE-Net: Co-guidance Attention and Contrastive Enhancement for Effective Audio-Visual Event Localization [11.525177542345215]
CACE-Netは、音声信号だけで視覚情報を案内する既存の方法とは異なる。
本稿では、双方向の双方向の注意誘導を適応的に行うための、オーディオ-視覚協調誘導機構を提案する。
AVEデータセットの実験では、CACE-Netがオーディオ視覚イベントローカライゼーションタスクに新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-08-04T07:48:12Z) - Rethink Cross-Modal Fusion in Weakly-Supervised Audio-Visual Video
Parsing [58.9467115916639]
本研究では, 核融合における非相関なクロスモーダルコンテキストを低減するために, メッセンジャー誘導型中間核融合変換器を提案する。
メッセンジャーは、完全なクロスモーダルコンテキストをコンパクトな表現に凝縮し、有用なクロスモーダル情報のみを保持する。
そこで我々は,無関係な音声情報の視覚事象予測への影響を抑えるために,クロスオーディオ予測整合性を提案する。
論文 参考訳(メタデータ) (2023-11-14T13:27:03Z) - Space-Time Memory Network for Sounding Object Localization in Videos [40.45443192327351]
本稿では,映像中の物体位置を計測する時空間メモリネットワークを提案する。
一時的および横断的両方の表現について一時的注意を同時に学習することができる。
論文 参考訳(メタデータ) (2021-11-10T04:40:12Z) - Multi-Modulation Network for Audio-Visual Event Localization [138.14529518908736]
本研究では,映像中の可聴性と可視性の両方を有する音声視覚事象のローカライズの問題について検討する。
既存の作業は、セグメントレベルでのオーディオと視覚機能のエンコーディングと調整に重点を置いている。
本稿では、上記の相関関係を学習し、意味的ガイダンスとして活用する新しいマルチ変調ネットワーク(M2N)を提案する。
論文 参考訳(メタデータ) (2021-08-26T13:11:48Z) - Cross-Modal Attention Consistency for Video-Audio Unsupervised Learning [141.38505371646482]
クロスモーダル相関は、ビデオ教師なし表現学習に固有の監督を提供する。
本稿では,双方向の局所通信特性を探索するために,CMAC(Cross-Modal Attention Consistency)というプレテキストタスクを導入する。
CMACは、視覚信号から純粋に発生する局所的注意と、音響信号の誘導の下で発生する対象的注意とを一致させることを目的としている。
論文 参考訳(メタデータ) (2021-06-13T07:41:15Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。