論文の概要: Dense Audio-Visual Event Localization under Cross-Modal Consistency and Multi-Temporal Granularity Collaboration
- arxiv url: http://arxiv.org/abs/2412.12628v2
- Date: Wed, 18 Dec 2024 09:58:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:25:05.085632
- Title: Dense Audio-Visual Event Localization under Cross-Modal Consistency and Multi-Temporal Granularity Collaboration
- Title(参考訳): クロスモーダル・コンシステンシーとマルチテンポラリ・グラニュラリティ・コラボレーションによる高密度音声・視覚イベントの定位
- Authors: Ziheng Zhou, Jinxing Zhou, Wei Qian, Shengeng Tang, Xiaojun Chang, Dan Guo,
- Abstract要約: 本論文は、より長い未編集映像に対する音声・視覚的シーン理解の促進を目的としている。
本稿では,Cross-Modal Consistency CollaborationとMulti-Temporal Granularity Collaborationの2つのコアモジュールからなる新しいCCNetを紹介する。
UnAV-100データセットの実験では、モジュール設計が検証され、高密度オーディオ視覚イベントのローカライゼーションにおける最先端のパフォーマンスが新たに向上した。
- 参考スコア(独自算出の注目度): 48.57159286673662
- License:
- Abstract: In the field of audio-visual learning, most research tasks focus exclusively on short videos. This paper focuses on the more practical Dense Audio-Visual Event Localization (DAVEL) task, advancing audio-visual scene understanding for longer, untrimmed videos. This task seeks to identify and temporally pinpoint all events simultaneously occurring in both audio and visual streams. Typically, each video encompasses dense events of multiple classes, which may overlap on the timeline, each exhibiting varied durations. Given these challenges, effectively exploiting the audio-visual relations and the temporal features encoded at various granularities becomes crucial. To address these challenges, we introduce a novel CCNet, comprising two core modules: the Cross-Modal Consistency Collaboration (CMCC) and the Multi-Temporal Granularity Collaboration (MTGC). Specifically, the CMCC module contains two branches: a cross-modal interaction branch and a temporal consistency-gated branch. The former branch facilitates the aggregation of consistent event semantics across modalities through the encoding of audio-visual relations, while the latter branch guides one modality's focus to pivotal event-relevant temporal areas as discerned in the other modality. The MTGC module includes a coarse-to-fine collaboration block and a fine-to-coarse collaboration block, providing bidirectional support among coarse- and fine-grained temporal features. Extensive experiments on the UnAV-100 dataset validate our module design, resulting in a new state-of-the-art performance in dense audio-visual event localization. The code is available at https://github.com/zzhhfut/CCNet-AAAI2025.
- Abstract(参考訳): オーディオ視覚学習の分野では、ほとんどの研究課題はショートビデオのみに焦点を当てている。
本稿では,より実用的なDense Audio-Visual Event Localization (DAVEL) タスクに着目し,より長い未編集映像に対する音声-視覚的シーン理解の促進について述べる。
このタスクは、オーディオストリームとビジュアルストリームの両方で同時に発生するすべてのイベントを特定し、時間的に特定する。
典型的には、各ビデオは複数のクラスの密集したイベントを包含する。
これらの課題から,様々な粒度で符号化された音声・視覚的関係と時間的特徴を効果的に活用することが重要である。
これらの課題に対処するため,Cross-Modal Consistency Collaboration (CMCC) と Multi-Temporal Granularity Collaboration (MTGC) の2つのコアモジュールからなる新しいCCNetを導入する。
具体的には、CMCCモジュールは、クロスモーダル相互作用ブランチと時間的一貫性ゲートブランチの2つのブランチを含む。
前者のブランチは、音声と視覚の関係の符号化を通じて、モーダル間の一貫性のあるイベントセマンティクスの集約を促進する一方、後者のブランチは、他のモーダルで識別されるような、重要なイベント関連時間領域への1つのモダリティの焦点を導く。
MTGCモジュールは、粗大な協調ブロックと粗大な協調ブロックを含み、粗大な時間的特徴と細小な時間的特徴の双方向サポートを提供する。
UnAV-100データセットの大規模な実験により、モジュール設計が検証され、高密度オーディオ視覚イベントのローカライゼーションにおける最先端のパフォーマンスが新たに向上した。
コードはhttps://github.com/zzhhfut/CCNet-AAAI2025で公開されている。
関連論文リスト
- Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
Dense-localization Audio-Visual Events (DAVE) は、未トリミングビデオで同時に見られるイベントの時間境界と対応するカテゴリを特定することを目的としている。
既存の手法では、音声と視覚の表現を明示的なモーダルなアライメント制約なしに別々に符号化する。
DAVEのための局所性を考慮したクロスモーダル対応学習フレームワークであるLOCOを提案する。
論文 参考訳(メタデータ) (2024-09-12T11:54:25Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition [47.103732403296654]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。
安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。
意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-09-29T20:48:44Z) - Multi-Scale Attention for Audio Question Answering [9.254814692650523]
AQA (Audio Question answering) は、シーン理解を探索するために広く使用されるプロキシタスクである。
既存の手法は主に視覚的質問応答タスクの構造を単純なパターンで音声に拡張する。
本稿では,非同期ハイブリッドアテンションモジュールとマルチスケールウィンドウアテンションモジュールからなるマルチスケールウィンドウアテンションフュージョンモデルを提案する。
論文 参考訳(メタデータ) (2023-05-29T10:06:58Z) - MM-Pyramid: Multimodal Pyramid Attentional Network for Audio-Visual
Event Localization and Video Parsing [7.977954561853929]
本稿では,マルチモーダルピラミッド注意ネットワーク(MM-Pyramid)を提案する。
また,適応型セマンティックフュージョンモジュールを設計し,ユニットレベルのアテンションブロックと選択的フュージョンブロックを活用して,ピラミッド機能を対話的に統合する。
論文 参考訳(メタデータ) (2021-11-24T09:47:26Z) - Multi-Modulation Network for Audio-Visual Event Localization [138.14529518908736]
本研究では,映像中の可聴性と可視性の両方を有する音声視覚事象のローカライズの問題について検討する。
既存の作業は、セグメントレベルでのオーディオと視覚機能のエンコーディングと調整に重点を置いている。
本稿では、上記の相関関係を学習し、意味的ガイダンスとして活用する新しいマルチ変調ネットワーク(M2N)を提案する。
論文 参考訳(メタデータ) (2021-08-26T13:11:48Z) - Video Abnormal Event Detection by Learning to Complete Visual Cloze
Tests [50.1446994599891]
ビデオ異常事象(VAD)は、大まかにラベル付けされた通常のビデオでのみ学習を必要とする、重要な半教師付きタスクである。
本稿では,視覚的クローゼテスト(VCT)の完了を学習することで,視覚的クローゼ(VCC)という新しいアプローチを提案する。
我々はVCCが最先端のVAD性能を達成することを示す。
論文 参考訳(メタデータ) (2021-08-05T04:05:36Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。