論文の概要: CLASP: Cross-modal Salient Anchor-based Semantic Propagation for Weakly-supervised Dense Audio-Visual Event Localization
- arxiv url: http://arxiv.org/abs/2508.04566v1
- Date: Wed, 06 Aug 2025 15:49:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.799375
- Title: CLASP: Cross-modal Salient Anchor-based Semantic Propagation for Weakly-supervised Dense Audio-Visual Event Localization
- Title(参考訳): CLASP:弱教師付きDense Audio-Visual Event Localizationのためのクロスモーダルサルアンカーに基づくセマンティック・プロパゲーション
- Authors: Jinxing Zhou, Ziheng Zhou, Yanghao Zhou, Yuxin Mao, Zhangling Duan, Dan Guo,
- Abstract要約: 本稿では,新たな弱教師付き設定(W-DAVELタスク)の下でDAVELを探索する。
我々は、弱い監督下でよく予測される信頼性の高いタイムスタンプとして定義されるテキストクロスモーダルなサリエントアンカーを利用する。
我々は、UnAV-100とActivityNet1.3データセットの両方でW-DAVELのベンチマークを構築した。
- 参考スコア(独自算出の注目度): 15.861700882671418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Dense Audio-Visual Event Localization (DAVEL) task aims to temporally localize events in untrimmed videos that occur simultaneously in both the audio and visual modalities. This paper explores DAVEL under a new and more challenging weakly-supervised setting (W-DAVEL task), where only video-level event labels are provided and the temporal boundaries of each event are unknown. We address W-DAVEL by exploiting \textit{cross-modal salient anchors}, which are defined as reliable timestamps that are well predicted under weak supervision and exhibit highly consistent event semantics across audio and visual modalities. Specifically, we propose a \textit{Mutual Event Agreement Evaluation} module, which generates an agreement score by measuring the discrepancy between the predicted audio and visual event classes. Then, the agreement score is utilized in a \textit{Cross-modal Salient Anchor Identification} module, which identifies the audio and visual anchor features through global-video and local temporal window identification mechanisms. The anchor features after multimodal integration are fed into an \textit{Anchor-based Temporal Propagation} module to enhance event semantic encoding in the original temporal audio and visual features, facilitating better temporal localization under weak supervision. We establish benchmarks for W-DAVEL on both the UnAV-100 and ActivityNet1.3 datasets. Extensive experiments demonstrate that our method achieves state-of-the-art performance.
- Abstract(参考訳): Dense Audio-Visual Event Localization (DAVEL) タスクは、音声と視覚の両方で同時に発生する未トリミングビデオ内のイベントを時間的にローカライズすることを目的としている。
本稿では,ビデオレベルのイベントラベルのみを提供し,各イベントの時間的境界が不明な,新たな弱教師付き設定(W-DAVELタスク)の下でDAVELを探索する。
We address W-DAVEL by exploiting \textit{cross-modal salient anchors}, is defined as reliable timetamps which are well predicted under weak supervision and exhibit highly consistent event semantics across audio and visual modalities。
具体的には、予測された音声と視覚イベントのクラス間の相違を計測し、合意スコアを生成する「textit{Mutual Event Agreement Evaluation}」モジュールを提案する。
次に、合意スコアをtextit{Cross-modal Salient Anchor Identification}モジュールで利用し、グローバルビデオおよびローカル時間ウィンドウ識別機構を通じて、オーディオおよび視覚アンカーの特徴を識別する。
マルチモーダル統合後のアンカー機能は、オリジナルの時間的オーディオおよび視覚的特徴におけるイベントセマンティックエンコーディングを強化するために、textit{Anchor-based Temporal Propagation}モジュールに入力される。
我々は、UnAV-100とActivityNet1.3データセットの両方でW-DAVELのベンチマークを構築した。
大規模な実験により,本手法が最先端の性能を達成できることが実証された。
関連論文リスト
- Detect Any Sound: Open-Vocabulary Sound Event Detection with Multi-Modal Queries [23.83866791274789]
マルチモーダルクエリによってガイドされるオープン語彙SEDのための問合せベースのフレームワークを提案する。
DASMはSEDをフレームレベルの検索タスクとして定式化し、音声機能はテキストやオーディオプロンプトからのクエリベクトルと一致している。
DASMは、局所化精度と新しいクラスへの一般化のバランスを効果的に保ち、オープン語彙設定においてCLAPベースの手法より優れている。
論文 参考訳(メタデータ) (2025-07-22T08:24:01Z) - Dense Audio-Visual Event Localization under Cross-Modal Consistency and Multi-Temporal Granularity Collaboration [48.57159286673662]
本論文は、より長い未編集映像に対する音声・視覚的シーン理解の促進を目的としている。
本稿では,Cross-Modal Consistency CollaborationとMulti-Temporal Granularity Collaborationの2つのコアモジュールからなる新しいCCNetを紹介する。
UnAV-100データセットの実験では、モジュール設計が検証され、高密度オーディオ視覚イベントのローカライゼーションにおける最先端のパフォーマンスが新たに向上した。
論文 参考訳(メタデータ) (2024-12-17T07:43:36Z) - Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
オーディオ・ビジュアル・イベント(DAVE)のための局所性を考慮したクロスモーダル対応学習フレームワークLoCoについて述べる。
LoCo は局所対応特徴 (LCF) 変調を適用し、モダリティ共有セマンティクスに焦点を合わせるために単調エンコーダを強制する。
さらに、データ駆動方式で注意領域を動的に調整するローカル適応クロスモーダル(LAC)インタラクションをカスタマイズする。
論文 参考訳(メタデータ) (2024-09-12T11:54:25Z) - CACE-Net: Co-guidance Attention and Contrastive Enhancement for Effective Audio-Visual Event Localization [11.525177542345215]
CACE-Netは、音声信号だけで視覚情報を案内する既存の方法とは異なる。
本稿では、双方向の双方向の注意誘導を適応的に行うための、オーディオ-視覚協調誘導機構を提案する。
AVEデータセットの実験では、CACE-Netがオーディオ視覚イベントローカライゼーションタスクに新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-08-04T07:48:12Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Rethink Cross-Modal Fusion in Weakly-Supervised Audio-Visual Video
Parsing [58.9467115916639]
本研究では, 核融合における非相関なクロスモーダルコンテキストを低減するために, メッセンジャー誘導型中間核融合変換器を提案する。
メッセンジャーは、完全なクロスモーダルコンテキストをコンパクトな表現に凝縮し、有用なクロスモーダル情報のみを保持する。
そこで我々は,無関係な音声情報の視覚事象予測への影響を抑えるために,クロスオーディオ予測整合性を提案する。
論文 参考訳(メタデータ) (2023-11-14T13:27:03Z) - Leveraging Language Model Capabilities for Sound Event Detection [10.792576135806623]
本稿では,音声イベントとその時間的位置を同時に生成しながら,音声特徴を理解するためのエンドツーエンドフレームワークを提案する。
具体的には、事前学習された音響モデルを用いて、異なるカテゴリーにわたる識別的特徴を捉え、自動回帰テキスト生成のための言語モデルを用いる。
論文 参考訳(メタデータ) (2023-08-22T15:59:06Z) - Leveraging the Video-level Semantic Consistency of Event for
Audio-visual Event Localization [8.530561069113716]
AVEローカライゼーションタスクのためのビデオレベルのセマンティック・コンセンサス・ガイダンス・ネットワークを提案する。
クロスモーダルなイベント表現抽出器と、モーダル内のセマンティック一貫性向上器の2つのコンポーネントから構成される。
我々は、パブリックなAVVデータセット上で広範な実験を行い、完全に教師された設定と弱い設定の両方において最先端の手法より優れています。
論文 参考訳(メタデータ) (2022-10-11T08:15:57Z) - Multi-Modulation Network for Audio-Visual Event Localization [138.14529518908736]
本研究では,映像中の可聴性と可視性の両方を有する音声視覚事象のローカライズの問題について検討する。
既存の作業は、セグメントレベルでのオーディオと視覚機能のエンコーディングと調整に重点を置いている。
本稿では、上記の相関関係を学習し、意味的ガイダンスとして活用する新しいマルチ変調ネットワーク(M2N)を提案する。
論文 参考訳(メタデータ) (2021-08-26T13:11:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。