論文の概要: Dense Audio-Visual Event Localization under Cross-Modal Consistency and Multi-Temporal Granularity Collaboration
- arxiv url: http://arxiv.org/abs/2412.12628v2
- Date: Wed, 18 Dec 2024 09:58:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:25:05.085632
- Title: Dense Audio-Visual Event Localization under Cross-Modal Consistency and Multi-Temporal Granularity Collaboration
- Title(参考訳): クロスモーダル・コンシステンシーとマルチテンポラリ・グラニュラリティ・コラボレーションによる高密度音声・視覚イベントの定位
- Authors: Ziheng Zhou, Jinxing Zhou, Wei Qian, Shengeng Tang, Xiaojun Chang, Dan Guo,
- Abstract要約: 本論文は、より長い未編集映像に対する音声・視覚的シーン理解の促進を目的としている。
本稿では,Cross-Modal Consistency CollaborationとMulti-Temporal Granularity Collaborationの2つのコアモジュールからなる新しいCCNetを紹介する。
UnAV-100データセットの実験では、モジュール設計が検証され、高密度オーディオ視覚イベントのローカライゼーションにおける最先端のパフォーマンスが新たに向上した。
- 参考スコア(独自算出の注目度): 48.57159286673662
- License:
- Abstract: In the field of audio-visual learning, most research tasks focus exclusively on short videos. This paper focuses on the more practical Dense Audio-Visual Event Localization (DAVEL) task, advancing audio-visual scene understanding for longer, untrimmed videos. This task seeks to identify and temporally pinpoint all events simultaneously occurring in both audio and visual streams. Typically, each video encompasses dense events of multiple classes, which may overlap on the timeline, each exhibiting varied durations. Given these challenges, effectively exploiting the audio-visual relations and the temporal features encoded at various granularities becomes crucial. To address these challenges, we introduce a novel CCNet, comprising two core modules: the Cross-Modal Consistency Collaboration (CMCC) and the Multi-Temporal Granularity Collaboration (MTGC). Specifically, the CMCC module contains two branches: a cross-modal interaction branch and a temporal consistency-gated branch. The former branch facilitates the aggregation of consistent event semantics across modalities through the encoding of audio-visual relations, while the latter branch guides one modality's focus to pivotal event-relevant temporal areas as discerned in the other modality. The MTGC module includes a coarse-to-fine collaboration block and a fine-to-coarse collaboration block, providing bidirectional support among coarse- and fine-grained temporal features. Extensive experiments on the UnAV-100 dataset validate our module design, resulting in a new state-of-the-art performance in dense audio-visual event localization. The code is available at https://github.com/zzhhfut/CCNet-AAAI2025.
- Abstract(参考訳): オーディオ視覚学習の分野では、ほとんどの研究課題はショートビデオのみに焦点を当てている。
本稿では,より実用的なDense Audio-Visual Event Localization (DAVEL) タスクに着目し,より長い未編集映像に対する音声-視覚的シーン理解の促進について述べる。
このタスクは、オーディオストリームとビジュアルストリームの両方で同時に発生するすべてのイベントを特定し、時間的に特定する。
典型的には、各ビデオは複数のクラスの密集したイベントを包含する。
これらの課題から,様々な粒度で符号化された音声・視覚的関係と時間的特徴を効果的に活用することが重要である。
これらの課題に対処するため,Cross-Modal Consistency Collaboration (CMCC) と Multi-Temporal Granularity Collaboration (MTGC) の2つのコアモジュールからなる新しいCCNetを導入する。
具体的には、CMCCモジュールは、クロスモーダル相互作用ブランチと時間的一貫性ゲートブランチの2つのブランチを含む。
前者のブランチは、音声と視覚の関係の符号化を通じて、モーダル間の一貫性のあるイベントセマンティクスの集約を促進する一方、後者のブランチは、他のモーダルで識別されるような、重要なイベント関連時間領域への1つのモダリティの焦点を導く。
MTGCモジュールは、粗大な協調ブロックと粗大な協調ブロックを含み、粗大な時間的特徴と細小な時間的特徴の双方向サポートを提供する。
UnAV-100データセットの大規模な実験により、モジュール設計が検証され、高密度オーディオ視覚イベントのローカライゼーションにおける最先端のパフォーマンスが新たに向上した。
コードはhttps://github.com/zzhhfut/CCNet-AAAI2025で公開されている。
関連論文リスト
- AVS-Mamba: Exploring Temporal and Multi-modal Mamba for Audio-Visual Segmentation [62.682428307810525]
音声・視覚的セグメンテーションタスクに対処する選択状態空間モデルであるAVS-Mambaを導入する。
我々のフレームワークはビデオ理解とクロスモーダル学習の2つの重要な要素を取り入れている。
提案手法は, AVSBench-object と AVS-semantic のデータセット上で, 最新の結果を実現する。
論文 参考訳(メタデータ) (2025-01-14T03:20:20Z) - Multimodal Class-aware Semantic Enhancement Network for Audio-Visual Video Parsing [22.655045848201528]
各オーディオ/視覚セグメントの正確なイベントセマンティクスの取得が不可欠である。
各セグメントは複数のイベントを含むことができ、結果として意味的に混合された全体的特徴をもたらす。
内部および相互関係を符号化するファイングラインド・セマンティック・エンハンスメント・モジュールを提案する。
論文 参考訳(メタデータ) (2024-12-15T16:54:53Z) - Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
オーディオ・ビジュアル・イベント(DAVE)のための局所性を考慮したクロスモーダル対応学習フレームワークLoCoについて述べる。
LoCo は局所性対応対応補正 (LCC) を非モーダル特徴に適用する。
さらにクロスモーダル・ダイナミック・パーセプション・レイヤ(CDP)をクロスモーダル・フィーチャー・ピラミッドでカスタマイズし、音声視覚イベントの局所的時間パターンを理解する。
論文 参考訳(メタデータ) (2024-09-12T11:54:25Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - MM-Pyramid: Multimodal Pyramid Attentional Network for Audio-Visual
Event Localization and Video Parsing [7.977954561853929]
本稿では,マルチモーダルピラミッド注意ネットワーク(MM-Pyramid)を提案する。
また,適応型セマンティックフュージョンモジュールを設計し,ユニットレベルのアテンションブロックと選択的フュージョンブロックを活用して,ピラミッド機能を対話的に統合する。
論文 参考訳(メタデータ) (2021-11-24T09:47:26Z) - Multi-Modulation Network for Audio-Visual Event Localization [138.14529518908736]
本研究では,映像中の可聴性と可視性の両方を有する音声視覚事象のローカライズの問題について検討する。
既存の作業は、セグメントレベルでのオーディオと視覚機能のエンコーディングと調整に重点を置いている。
本稿では、上記の相関関係を学習し、意味的ガイダンスとして活用する新しいマルチ変調ネットワーク(M2N)を提案する。
論文 参考訳(メタデータ) (2021-08-26T13:11:48Z) - Video Abnormal Event Detection by Learning to Complete Visual Cloze
Tests [50.1446994599891]
ビデオ異常事象(VAD)は、大まかにラベル付けされた通常のビデオでのみ学習を必要とする、重要な半教師付きタスクである。
本稿では,視覚的クローゼテスト(VCT)の完了を学習することで,視覚的クローゼ(VCC)という新しいアプローチを提案する。
我々はVCCが最先端のVAD性能を達成することを示す。
論文 参考訳(メタデータ) (2021-08-05T04:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。