論文の概要: Contrastive Conditional Latent Diffusion for Audio-visual Segmentation
- arxiv url: http://arxiv.org/abs/2307.16579v2
- Date: Tue, 01 Jul 2025 05:44:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-02 15:54:39.893555
- Title: Contrastive Conditional Latent Diffusion for Audio-visual Segmentation
- Title(参考訳): 音声視覚分割のためのコントラスト条件付き潜時拡散法
- Authors: Yuxin Mao, Jing Zhang, Mochu Xiang, Yunqiu Lv, Dong Li, Yiran Zhong, Yuchao Dai,
- Abstract要約: 音声視覚分割のための条件付き潜時拡散モデルを提案する。
本フレームワークは,意味関連表現学習を実現するために,潜時拡散モデルを組み込んだ。
コントラスト学習によるこの潜伏拡散モデルを採用することにより,AVSにおける音声の寄与を効果的に向上する。
- 参考スコア(独自算出の注目度): 42.94080672928958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a contrastive conditional latent diffusion model for audio-visual segmentation (AVS) to thoroughly investigate the impact of audio, where the correlation between audio and the final segmentation map is modeled to guarantee the strong correlation between them. To achieve semantic-correlated representation learning, our framework incorporates a latent diffusion model. The diffusion model learns the conditional generation process of the ground-truth segmentation map, resulting in ground-truth aware inference during the denoising process at the test stage. As our model is conditional, it is vital to ensure that the conditional variable contributes to the model output. We thus extensively model the contribution of the audio signal by minimizing the density ratio between the conditional probability of the multimodal data, e.g. conditioned on the audio-visual data, and that of the unimodal data, e.g. conditioned on the audio data only. In this way, our latent diffusion model via density ratio optimization explicitly maximizes the contribution of audio for AVS, which can then be achieved with contrastive learning as a constraint, where the diffusion part serves as the main objective to achieve maximum likelihood estimation, and the density ratio optimization part imposes the constraint. By adopting this latent diffusion model via contrastive learning, we effectively enhance the contribution of audio for AVS. The effectiveness of our solution is validated through experimental results on the benchmark dataset. Code and results are online via our project page: https://github.com/OpenNLPLab/DiffusionAVS.
- Abstract(参考訳): 本稿では,音声と最終セグメンテーションマップの相関関係をモデル化し,両者の強い相関関係を保証するために,オーディオ・視覚的セグメンテーション(AVS)に対するコントラスト条件付き潜時拡散モデルを提案する。
意味関連表現学習を実現するために,我々のフレームワークは潜在拡散モデルを組み込んだ。
拡散モデルでは, グラウンド・トゥルース・セグメンテーション・マップの条件生成過程を学習し, テスト段階でのデノナイズ・プロセス中にグラウンド・トゥルース・アウェア・推論を行う。
我々のモデルは条件付きであるため、条件付き変数がモデル出力に寄与することを保証することが不可欠である。
これにより、マルチモーダルデータの条件確率egとオーディオデータのみの条件egとの密度比を最小化し、音声信号の寄与を広範囲にモデル化する。
このように、密度比最適化による潜在拡散モデルは、AVSの音声の寄与を明示的に最大化し、そこでは、拡散部が最大最大推定を達成するための主目的として機能し、密度比最適化部が制約を課す。
コントラスト学習によるこの潜伏拡散モデルの適用により、AVSにおける音声の寄与を効果的に強化する。
提案手法の有効性は,ベンチマークデータセットの実験結果を通じて検証する。
コードと結果は当社のプロジェクトページからオンラインで公開されている。
関連論文リスト
- Do Audio-Visual Segmentation Models Truly Segment Sounding Objects? [38.98706069359109]
AVSBench-Robustは、サイレント、環境騒音、オフスクリーン音を含む様々なネガティブなオーディオシナリオを取り入れたベンチマークである。
提案手法は, ほぼ完全な偽陽性率を維持しながら, 標準測定値とロバストネス測定値の両方において顕著な改善を実現している。
論文 参考訳(メタデータ) (2025-02-01T07:40:29Z) - Diffusion-based Unsupervised Audio-visual Speech Enhancement [26.937216751657697]
本稿では,新しい教師なし音声強調(AVSE)手法を提案する。
拡散に基づく音声視覚音声生成モデルと非負行列分解(NMF)ノイズモデルを組み合わせる。
実験結果から,提案手法は音声のみのアプローチより優れているだけでなく,近年の教師付き AVSE 法よりも優れていたことが確認された。
論文 参考訳(メタデータ) (2024-10-04T12:22:54Z) - Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - Audio-visual speech enhancement with a deep Kalman filter generative
model [0.0]
本稿では,潜伏変数に対するマルコフ連鎖モデルを想定したオーディオビジュアルディープカルマンフィルタ(AV-DKF)生成モデルを提案する。
テスト時に音声信号を推定する効率的な推論手法を開発した。
論文 参考訳(メタデータ) (2022-11-02T09:50:08Z) - TransFusion: Transcribing Speech with Multinomial Diffusion [20.165433724198937]
本研究では,事前学習した音声特徴に基づく拡散モデルを用いて音声認識を行う手法を提案する。
我々は,LibriSpeech音声認識ベンチマークにおいて,既存の高性能コントラストモデルに匹敵する性能を示す。
また,多項拡散モデルのサンプリングと復号化を効果的に行う新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-14T10:01:43Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - Deep Variational Generative Models for Audio-visual Speech Separation [33.227204390773316]
クリーン音声の音声・視覚生成モデルに基づく教師なし手法を提案する。
視覚情報をよりよく活用するために、混合音声から潜伏変数の後部を推定する。
実験の結果,非教師付きVAE法はNMF法よりも分離性能がよいことがわかった。
論文 参考訳(メタデータ) (2020-08-17T10:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。