論文の概要: Label-anticipated Event Disentanglement for Audio-Visual Video Parsing
- arxiv url: http://arxiv.org/abs/2407.08126v1
- Date: Thu, 11 Jul 2024 01:57:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 19:18:18.593998
- Title: Label-anticipated Event Disentanglement for Audio-Visual Video Parsing
- Title(参考訳): オーディオ・ビジュアル・ビデオ・パーシングのためのラベル予測イベント・ディスタングル
- Authors: Jinxing Zhou, Dan Guo, Yuxin Mao, Yiran Zhong, Xiaojun Chang, Meng Wang,
- Abstract要約: 我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
- 参考スコア(独自算出の注目度): 61.08434062821899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-Visual Video Parsing (AVVP) task aims to detect and temporally locate events within audio and visual modalities. Multiple events can overlap in the timeline, making identification challenging. While traditional methods usually focus on improving the early audio-visual encoders to embed more effective features, the decoding phase -- crucial for final event classification, often receives less attention. We aim to advance the decoding phase and improve its interpretability. Specifically, we introduce a new decoding paradigm, \underline{l}abel s\underline{e}m\underline{a}ntic-based \underline{p}rojection (LEAP), that employs labels texts of event categories, each bearing distinct and explicit semantics, for parsing potentially overlapping events.LEAP works by iteratively projecting encoded latent features of audio/visual segments onto semantically independent label embeddings. This process, enriched by modeling cross-modal (audio/visual-label) interactions, gradually disentangles event semantics within video segments to refine relevant label embeddings, guaranteeing a more discriminative and interpretable decoding process. To facilitate the LEAP paradigm, we propose a semantic-aware optimization strategy, which includes a novel audio-visual semantic similarity loss function. This function leverages the Intersection over Union of audio and visual events (EIoU) as a novel metric to calibrate audio-visual similarities at the feature level, accommodating the varied event densities across modalities. Extensive experiments demonstrate the superiority of our method, achieving new state-of-the-art performance for AVVP and also enhancing the relevant audio-visual event localization task.
- Abstract(参考訳): AVVP(Audio-Visual Video Parsing)タスクは、音声と視覚のモダリティ内の事象を検出し、時間的に見つけることを目的としている。
複数のイベントがタイムラインで重複し、識別が難しい。
従来の手法では、より効果的な機能を組み込むために初期のオーディオ視覚エンコーダの改善に重点を置いているが、最終的なイベント分類に不可欠なデコードフェーズは、あまり注目されないことが多い。
我々は,復号化の段階を進み,解釈可能性を向上させることを目指している。
具体的には,新たなデコードパラダイムである \underline{l}abel s\underline{e}m\underline{a}ntic-based \underline{p}rojection (LEAP) を導入し,音声/視覚セグメントの符号化された潜時的特徴を意味的に独立なラベル埋め込みに反復的に投影する。
このプロセスは、クロスモーダル(オーディオ/ヴィジュアル-ラベル)相互作用をモデル化することによって強化され、徐々にビデオセグメント内のイベントセマンティクスを分解して関連するラベルの埋め込みを洗練し、より差別的で解釈可能な復号プロセスを保証する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
この関数は、音声と視覚のイベントの連合(EIoU)のインターセクションを利用して、特徴レベルでのオーディオと視覚の類似性を校正し、様々なイベント密度をモダリティにわたって調節する。
広汎な実験により,本手法の優位性を実証し,AVVPの新たな最先端性能を実現し,関連する音声・視覚イベントのローカライゼーションタスクを強化した。
関連論文リスト
- Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
Dense-localization Audio-Visual Events (DAVE) は、未トリミングビデオで同時に見られるイベントの時間境界と対応するカテゴリを特定することを目的としている。
既存の手法では、音声と視覚の表現を明示的なモーダルなアライメント制約なしに別々に符号化する。
DAVEのための局所性を考慮したクロスモーダル対応学習フレームワークであるLOCOを提案する。
論文 参考訳(メタデータ) (2024-09-12T11:54:25Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - CACE-Net: Co-guidance Attention and Contrastive Enhancement for Effective Audio-Visual Event Localization [11.525177542345215]
CACE-Netは、音声信号だけで視覚情報を案内する既存の方法とは異なる。
本稿では、双方向の双方向の注意誘導を適応的に行うための、オーディオ-視覚協調誘導機構を提案する。
AVEデータセットの実験では、CACE-Netがオーディオ視覚イベントローカライゼーションタスクに新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-08-04T07:48:12Z) - Audio-visual Generalized Zero-shot Learning the Easy Way [20.60905505473906]
本稿では,EZ-AVGZLについて述べる。
我々は,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSLベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-07-18T01:57:16Z) - Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - CM-PIE: Cross-modal perception for interactive-enhanced audio-visual
video parsing [23.85763377992709]
本稿では,セグメントベースアテンションモジュールを適用して,細粒度の特徴を学習できる対話型クロスモーダル認識手法(CM-PIE)を提案する。
当社のモデルでは、Look、Listen、Parseデータセットのパースパフォーマンスが改善されています。
論文 参考訳(メタデータ) (2023-10-11T14:15:25Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Revisit Weakly-Supervised Audio-Visual Video Parsing from the Language
Perspective [41.07880755312204]
本稿では,音声・視覚的モダリティのすべての事象を特定し,特定することを目的とした,弱教師付き音声・視覚的ビデオ解析タスク(AVVP)に焦点を当てる。
AVVPを言語の観点から扱うことを考える。なぜなら言語は固定ラベルを超えて各セグメントにどのように様々なイベントが現れるかを自由に記述できるからである。
我々の単純で効果的なアプローチは、最先端の手法を大きなマージンで上回ります。
論文 参考訳(メタデータ) (2023-06-01T12:12:22Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Leveraging the Video-level Semantic Consistency of Event for
Audio-visual Event Localization [8.530561069113716]
AVEローカライゼーションタスクのためのビデオレベルのセマンティック・コンセンサス・ガイダンス・ネットワークを提案する。
クロスモーダルなイベント表現抽出器と、モーダル内のセマンティック一貫性向上器の2つのコンポーネントから構成される。
我々は、パブリックなAVVデータセット上で広範な実験を行い、完全に教師された設定と弱い設定の両方において最先端の手法より優れています。
論文 参考訳(メタデータ) (2022-10-11T08:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。