論文の概要: Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization
- arxiv url: http://arxiv.org/abs/2409.07967v2
- Date: Tue, 18 Feb 2025 16:22:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:02:04.498777
- Title: Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization
- Title(参考訳): 濃密な視覚事象の局所化のための局所性を考慮したクロスモーダル対応学習
- Authors: Ling Xing, Hongyu Qu, Rui Yan, Xiangbo Shu, Jinhui Tang,
- Abstract要約: オーディオ・ビジュアル・イベント(DAVE)のための局所性を考慮したクロスモーダル対応学習フレームワークLoCoについて述べる。
LoCo は局所性対応対応補正 (LCC) を非モーダル特徴に適用する。
さらにクロスモーダル・ダイナミック・パーセプション・レイヤ(CDP)をクロスモーダル・フィーチャー・ピラミッドでカスタマイズし、音声視覚イベントの局所的時間パターンを理解する。
- 参考スコア(独自算出の注目度): 50.122441710500055
- License:
- Abstract: Dense-localization Audio-Visual Events (DAVE) aims to identify time boundaries and corresponding categories for events that can be heard and seen concurrently in an untrimmed video. Existing DAVE solutions extract audio and visual features through modality-specific encoders and fuse them via dense cross-attention. The independent processing of each modality neglects their complementarity, resulting in modality-specific noise, while dense attention fails to account for local temporal continuity of events, causing irrelevant signal distractions. In this paper, we present LoCo, a Locality-aware cross-modal Correspondence learning framework for DAVE. The core idea is to explore local temporal continuity nature of audio-visual events, which serves as informative yet free supervision signals to guide the filtering of irrelevant information and inspire the extraction of complementary multimodal information during both unimodal and cross-modal learning stages. i) Specifically, LoCo applies Locality-aware Correspondence Correction (LCC) to unimodal features via leveraging cross-modal local-correlated properties without any extra annotations. This enforces unimodal encoders to highlight similar semantics shared by audio and visual features. ii) To better aggregate such audio and visual features, we further customize Cross-modal Dynamic Perception layer (CDP) in cross-modal feature pyramid to understand local temporal patterns of audio-visual events by imposing local consistency within multimodal features in a data-driven manner. By incorporating LCC and CDP, LoCo provides solid performance gains and outperforms existing DAVE methods.
- Abstract(参考訳): Dense-localization Audio-Visual Events (DAVE) は、未トリミングビデオで同時に見られるイベントの時間境界と対応するカテゴリを特定することを目的としている。
既存のDAVEソリューションは、モーダリティ固有のエンコーダを通じてオーディオや視覚的特徴を抽出し、密接なクロスアテンションを介して融合する。
それぞれのモダリティの独立な処理は相補性を無視し、モダリティ固有のノイズをもたらすが、密集した注意は事象の局所的な時間的連続を考慮せず、無関係な信号の乱れを引き起こす。
本稿では,局所性を考慮したDAVE用クロスモーダル対応学習フレームワークであるLoCoを紹介する。
中心となる考え方は、視覚的事象の局所的時間的連続性を探求することであり、これは情報的かつ自由な監視信号として機能し、無関係な情報のフィルタリングを誘導し、一助的および横断的な学習段階における相補的なマルチモーダル情報の抽出を促すことである。
i) 特に、LoCoは、追加のアノテーションを使わずに、モダル横断的な局所関連プロパティを活用することにより、非モダル特徴に対してLocality-Aware Correspondence Correction (LCC)を適用します。
これにより、音声や視覚的特徴によって共有される同様のセマンティクスを強調表示するように、ユニモーダルエンコーダを強制する。
ii)このような音声や視覚的特徴をよりよく集約するために、クロスモーダル特徴ピラミッドにおけるクロスモーダル動的知覚層(CDP)をさらにカスタマイズし、データ駆動方式でマルチモーダル特徴の局所的一貫性を付与することにより、オーディオ視覚事象の局所的時間パターンを理解する。
LCCとCDPを組み込むことで、LoCoはパフォーマンスをしっかりと向上し、既存のDAVEメソッドより優れている。
関連論文リスト
- CACE-Net: Co-guidance Attention and Contrastive Enhancement for Effective Audio-Visual Event Localization [11.525177542345215]
CACE-Netは、音声信号だけで視覚情報を案内する既存の方法とは異なる。
本稿では、双方向の双方向の注意誘導を適応的に行うための、オーディオ-視覚協調誘導機構を提案する。
AVEデータセットの実験では、CACE-Netがオーディオ視覚イベントローカライゼーションタスクに新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-08-04T07:48:12Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Progressive Confident Masking Attention Network for Audio-Visual Segmentation [8.591836399688052]
Audio-Visualとして知られる課題が出現し、シーン内のオブジェクトを音化するためのセグメンテーションマップを作成することを目的としている。
PMCANet(Progressive Confident Masking Attention Network)を紹介する。
注意機構を利用して、音声信号と視覚フレームの本質的な相関を明らかにする。
論文 参考訳(メタデータ) (2024-06-04T14:21:41Z) - Rethink Cross-Modal Fusion in Weakly-Supervised Audio-Visual Video
Parsing [58.9467115916639]
本研究では, 核融合における非相関なクロスモーダルコンテキストを低減するために, メッセンジャー誘導型中間核融合変換器を提案する。
メッセンジャーは、完全なクロスモーダルコンテキストをコンパクトな表現に凝縮し、有用なクロスモーダル情報のみを保持する。
そこで我々は,無関係な音声情報の視覚事象予測への影響を抑えるために,クロスオーディオ予測整合性を提案する。
論文 参考訳(メタデータ) (2023-11-14T13:27:03Z) - Accommodating Audio Modality in CLIP for Multimodal Processing [48.83906067348211]
視覚言語モデルCLIPを拡張し、視覚言語モデルAudioのマルチモーダル処理におけるオーディオモダリティに対応する。
具体的には、モーダル間およびモーダル内コントラスト学習を用いて、オーディオと他のモーダル間の相関について検討する。
提案するCLIP4VLAモデルは,ビデオ検索やビデオキャプションなど,さまざまな下流タスクで検証される。
論文 参考訳(メタデータ) (2023-03-12T06:57:01Z) - Space-Time Memory Network for Sounding Object Localization in Videos [40.45443192327351]
本稿では,映像中の物体位置を計測する時空間メモリネットワークを提案する。
一時的および横断的両方の表現について一時的注意を同時に学習することができる。
論文 参考訳(メタデータ) (2021-11-10T04:40:12Z) - Multi-Modulation Network for Audio-Visual Event Localization [138.14529518908736]
本研究では,映像中の可聴性と可視性の両方を有する音声視覚事象のローカライズの問題について検討する。
既存の作業は、セグメントレベルでのオーディオと視覚機能のエンコーディングと調整に重点を置いている。
本稿では、上記の相関関係を学習し、意味的ガイダンスとして活用する新しいマルチ変調ネットワーク(M2N)を提案する。
論文 参考訳(メタデータ) (2021-08-26T13:11:48Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Learning Audio-Visual Correlations from Variational Cross-Modal
Generation [35.07257471319274]
我々は,モーダル間生成の観点から,音声と視覚の相関関係を自己監督的に学習する。
学習した相関関係は、オーディオ-視覚的クロスモーダルなローカライゼーションや検索など、複数の下流タスクに容易に適用できる。
論文 参考訳(メタデータ) (2021-02-05T21:27:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。