論文の概要: CAE-AV: Improving Audio-Visual Learning via Cross-modal Interactive Enrichment
- arxiv url: http://arxiv.org/abs/2602.08309v1
- Date: Mon, 09 Feb 2026 06:30:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.088426
- Title: CAE-AV: Improving Audio-Visual Learning via Cross-modal Interactive Enrichment
- Title(参考訳): CAE-AV:クロスモーダル・インタラクティブ・エンリッチメントによるオーディオ・ビジュアル・ラーニングの改善
- Authors: Yunzuo Hu, Wen Li, Jing Zhang,
- Abstract要約: 本稿では,音声視覚学習のための新しいキャプション・アラインメント・アンド・コンセンサス・ガイダンス・エンハンスメント・フレームワーク(CAE-AV)を提案する。
2つの補完モジュール:クロスモーダル・コンセンサス・ガイド付き時空強化(CASTE)とキャプション・アライン・サリエンシ・ガイダンス・エンリッチメント(CASE)
CASTEは、フレームレベルのオーディオ・視覚的合意を評価することで空間的・時間的関係をバランスさせ、キー情報が前と後の両方のフレームから不正に取得されることを保証する。
症例は、選択された時間的位置に対して、横断的意味指導を注入し、高いレベルの意味的手がかりを活用して、不一致を緩和する。
- 参考スコア(独自算出の注目度): 12.793962173450494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-visual learning suffers from modality misalignment caused by off-screen sources and background clutter, and current methods usually amplify irrelevant regions or moments, leading to unstable training and degraded representation quality. To address this challenge, we proposed a novel Caption-aligned and Agreement-guided Enhancement framework (CAE-AV) for audio-visual learning, which used two complementary modules: Cross-modal Agreement-guided Spatio-Temporal Enrichment (CASTE) and Caption-Aligned Saliency-guided Enrichment (CASE) to relieve audio-visual misalignment. CASTE dynamically balances spatial and temporal relations by evaluating frame-level audio-visual agreement, ensuring that key information is captured from both preceding and subsequent frames under misalignment. CASE injects cross-modal semantic guidance into selected spatio-temporal positions, leveraging high-level semantic cues to further alleviate misalignment. In addition, we design lightweight objectives, caption-to-modality InfoNCE, visual-audio consistency, and entropy regularization to guide token selection and strengthen cross-modal semantic alignment. With frozen backbones, CAE-AV achieves state-of-the-art performance on AVE, AVVP, AVS, and AVQA benchmarks, and qualitative analyses further validate its robustness against audio-visual misalignment.
- Abstract(参考訳): 音声視覚学習は、オフスクリーンのソースや背景の乱れによって生じるモダリティの不一致に悩まされ、現在の手法は、通常、無関係な領域や瞬間を増幅し、不安定な訓練と表現の質を低下させる。
この課題に対処するため,我々は,CASTE(Cross-modal Agreement-guided Spatio-Temporal Enrichment)とCASE(Caption-Aligned Saliency-Guided Enrichment)の2つの相補的モジュールを用いた音声視覚学習のための新しいCaption-aligned and Agreement-guided Enhancement framework(CAE-AV)を提案した。
CASTEは、フレームレベルのオーディオ・視覚的合意を評価することにより、空間的・時間的関係を動的にバランスさせ、キー情報が前と後の両方のフレームから不正に取得されることを保証する。
症例は、特定の時空間的位置に相互意味指導を注入し、ハイレベルな意味的手がかりを活用して、不一致をさらに緩和する。
さらに,軽量な目的,キャプション・ツー・モダリティ・InfoNCE,ビジュアル・オーディオ整合性,エントロピー整合性を設計し,トークンの選択をガイドし,モーダル間のセマンティックアライメントを強化する。
凍結したバックボーンにより、CAE-AVはAVV、AVVP、AVS、AVQAのベンチマークで最先端のパフォーマンスを達成する。
関連論文リスト
- Teacher-Guided Pseudo Supervision and Cross-Modal Alignment for Audio-Visual Video Parsing [26.317163478761916]
弱教師付き音声視覚ビデオ解析は、時間的アノテーションを使わずに、可聴性、可視性、および音声視覚イベントを検出する。
本稿では,信頼度の高いセグメントレベルのマスクを生成する指数移動平均(EMA)誘導擬似監視フレームワークを提案する。
また,クラス対応のクロスモーダル・アグリーメント(CMA)の損失も提案する。
論文 参考訳(メタデータ) (2025-09-17T15:38:05Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。
意味論の欠如により、異種表現は誤った一致につながる可能性がある。
モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文 参考訳(メタデータ) (2025-07-28T11:46:35Z) - Mitigating Audiovisual Mismatch in Visual-Guide Audio Captioning [37.17910848101769]
現在の視覚誘導型オーディオキャプションシステムは、現実のシナリオにおけるオーディオヴィジュアル・アライメントに対処できない。
本稿では,モーダルな不確実性定量化を通じて視覚情報の流れを動的に変調するエントロピー対応ゲート融合フレームワークを提案する。
また,合成ミスマッチ学習ペアを生成するバッチワイドオーディオ視覚シャッフル技術を開発した。
論文 参考訳(メタデータ) (2025-05-28T07:08:17Z) - CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment [76.32508013503653]
CAV-MAE Sync は,自己教師型音声視覚学習のためのオリジナルの CAV-MAE フレームワークの簡易かつ効果的な拡張として提案する。
音声をグローバルな表現ではなく,映像フレームに整合した時間的シーケンスとして扱うことで,モダリティ間のミスマッチに対処する。
パッチトークンのセマンティック負荷を低減するための学習可能なレジスタトークンを導入することにより,空間的ローカライゼーションを改善する。
論文 参考訳(メタデータ) (2025-05-02T12:59:58Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - CAD -- Contextual Multi-modal Alignment for Dynamic AVQA [20.155816093525374]
既存のAVQA手法には2つの大きな欠点がある。
提案するCADネットワークは,最先端手法の全体的な性能を平均9.4%向上させる。
論文 参考訳(メタデータ) (2023-10-25T16:40:09Z) - Cross-Modal Global Interaction and Local Alignment for Audio-Visual
Speech Recognition [21.477900473255264]
音声・視覚音声認識(AVSR)のための多言語間相互作用と局所アライメント(GILA)アプローチを提案する。
具体的には、A-Vの相補関係をモダリティレベルで捉えるためのグローバル相互作用モデルと、フレームレベルでのA-Vの時間的一貫性をモデル化するための局所アライメントアプローチを設計する。
我々のGILAは、公開ベンチマークのLSS3とLSS2で教師付き学習状況よりも優れています。
論文 参考訳(メタデータ) (2023-05-16T06:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。