論文の概要: Implicit Counterfactual Learning for Audio-Visual Segmentation
- arxiv url: http://arxiv.org/abs/2507.20740v1
- Date: Mon, 28 Jul 2025 11:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.097472
- Title: Implicit Counterfactual Learning for Audio-Visual Segmentation
- Title(参考訳): オーディオ・ビジュアル・セグメンテーションのための暗黙の対物学習
- Authors: Mingfeng Zha, Tianyu Li, Guoqing Wang, Peng Wang, Yangyang Wu, Yang Yang, Heng Tao Shen,
- Abstract要約: 我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。
意味論の欠如により、異種表現は誤った一致につながる可能性がある。
モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
- 参考スコア(独自算出の注目度): 50.69377287012591
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Audio-visual segmentation (AVS) aims to segment objects in videos based on audio cues. Existing AVS methods are primarily designed to enhance interaction efficiency but pay limited attention to modality representation discrepancies and imbalances. To overcome this, we propose the implicit counterfactual framework (ICF) to achieve unbiased cross-modal understanding. Due to the lack of semantics, heterogeneous representations may lead to erroneous matches, especially in complex scenes with ambiguous visual content or interference from multiple audio sources. We introduce the multi-granularity implicit text (MIT) involving video-, segment- and frame-level as the bridge to establish the modality-shared space, reducing modality gaps and providing prior guidance. Visual content carries more information and typically dominates, thereby marginalizing audio features in the decision-making. To mitigate knowledge preference, we propose the semantic counterfactual (SC) to learn orthogonal representations in the latent space, generating diverse counterfactual samples, thus avoiding biases introduced by complex functional designs and explicit modifications of text structures or attributes. We further formulate the collaborative distribution-aware contrastive learning (CDCL), incorporating factual-counterfactual and inter-modality contrasts to align representations, promoting cohesion and decoupling. Extensive experiments on three public datasets validate that the proposed method achieves state-of-the-art performance.
- Abstract(参考訳): オーディオ・ビジュアル・セグメンテーション(AVS)は、オーディオ・キューに基づくビデオ内のオブジェクトのセグメンテーションを目的としている。
既存のAVS法は主に相互作用効率を向上させるために設計されているが、モダリティ表現の相違や不均衡に限定的に注意を払っている。
これを解決するために,非バイアスのクロスモーダル理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。
セマンティクスの欠如により、不均一な表現は、特に不明瞭な視覚的内容を持つ複雑なシーンや複数の音源からの干渉において、誤った一致につながる可能性がある。
我々は,ビデオ,セグメント,フレームレベルをブリッジとして含んだ多粒性暗黙テキスト(MIT)を導入し,モダリティ共有空間を確立し,モダリティギャップを小さくし,事前ガイダンスを提供する。
視覚コンテンツはより多くの情報を持ち、典型的には支配的であり、意思決定において音声機能を疎外する。
知識の嗜好を軽減するため,潜在空間における直交表現を学習し,多様な反事実サンプルを生成する意味的反事実(SC)を提案し,複雑な機能設計やテキスト構造や属性の明示的な修正によるバイアスを回避する。
さらに,コラボレーティブ・ディストリビューション・アウェア・コントラクティブ・ラーニング (CDCL) を定式化し,実数とモダリティのコントラストを組み込んで表現を整合させ,凝集と疎結合を促進する。
3つの公開データセットに対する大規模な実験により,提案手法が最先端の性能を達成することを確認した。
関連論文リスト
- AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Sequential Contrastive Audio-Visual Learning [12.848371604063168]
本稿では,非集約的表現空間に基づく実例を対比した逐次コントラスト型音声視覚学習(SCAV)を提案する。
VGGSoundとMusicのデータセットによる実験は、SCAVの有効性を実証している。
また、SCAVでトレーニングされたモデルが、検索に使用されるメトリックに関して、かなりの柔軟性を示すことを示す。
論文 参考訳(メタデータ) (2024-07-08T09:45:20Z) - Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning [7.908887001497406]
教師なしハイライト検出のためのクロスモーダル認識を用いた新しいモデルを提案する。
提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。
実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-14T13:52:03Z) - Multimodal Variational Auto-encoder based Audio-Visual Segmentation [46.67599800471001]
ECMVAEは、各モダリティの表現をモダリティ共有表現とモダリティ固有表現で分解する。
当社のアプローチでは,3.84mIOUの性能向上を図りながら,音声・視覚的セグメンテーションのための新たな最先端技術が実現されている。
論文 参考訳(メタデータ) (2023-10-12T13:09:40Z) - CM-PIE: Cross-modal perception for interactive-enhanced audio-visual
video parsing [23.85763377992709]
本稿では,セグメントベースアテンションモジュールを適用して,細粒度の特徴を学習できる対話型クロスモーダル認識手法(CM-PIE)を提案する。
当社のモデルでは、Look、Listen、Parseデータセットのパースパフォーマンスが改善されています。
論文 参考訳(メタデータ) (2023-10-11T14:15:25Z) - $C^3$: Compositional Counterfactual Contrastive Learning for
Video-grounded Dialogues [97.25466640240619]
映像対話システムの目的は、映像理解と対話理解を統合し、対話と映像コンテキストの両方に関連する応答を生成することである。
既存のアプローチのほとんどはディープラーニングモデルを採用しており、比較的小さなデータセットが利用可能であることを考えると、優れたパフォーマンスを実現している。
本稿では,映像対話における実例と反実例の対比学習を開発するために,合成対実的コントラスト学習の新たなアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-16T16:05:27Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。