論文の概要: Contrastive Conditional Latent Diffusion for Audio-visual Segmentation
- arxiv url: http://arxiv.org/abs/2307.16579v1
- Date: Mon, 31 Jul 2023 11:29:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 14:52:12.228338
- Title: Contrastive Conditional Latent Diffusion for Audio-visual Segmentation
- Title(参考訳): 音声視覚分割のためのコントラスト条件付き潜時拡散法
- Authors: Yuxin Mao, Jing Zhang, Mochu Xiang, Yunqiu Lv, Yiran Zhong, Yuchao Dai
- Abstract要約: 意味関連表現学習を実現するために,潜在拡散モデルを提案する。
我々は条件変数がモデル出力に寄与することを確実にすることが不可欠であると主張する。
- 参考スコア(独自算出の注目度): 37.83055692562661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a latent diffusion model with contrastive learning for
audio-visual segmentation (AVS) to extensively explore the contribution of
audio. We interpret AVS as a conditional generation task, where audio is
defined as the conditional variable for sound producer(s) segmentation. With
our new interpretation, it is especially necessary to model the correlation
between audio and the final segmentation map to ensure its contribution. We
introduce a latent diffusion model to our framework to achieve
semantic-correlated representation learning. Specifically, our diffusion model
learns the conditional generation process of the ground-truth segmentation map,
leading to ground-truth aware inference when we perform the denoising process
at the test stage. As a conditional diffusion model, we argue it is essential
to ensure that the conditional variable contributes to model output. We then
introduce contrastive learning to our framework to learn audio-visual
correspondence, which is proven consistent with maximizing the mutual
information between model prediction and the audio data. In this way, our
latent diffusion model via contrastive learning explicitly maximizes the
contribution of audio for AVS. Experimental results on the benchmark dataset
verify the effectiveness of our solution. Code and results are online via our
project page: https://github.com/OpenNLPLab/DiffusionAVS.
- Abstract(参考訳): 本稿では,音声・視覚セグメンテーション(avs)のためのコントラスト学習を用いた潜在拡散モデルを提案する。
我々は、AVSを条件生成タスクと解釈し、オーディオを音生成器のセグメンテーションの条件変数として定義する。
新たな解釈では,音声と最終セグメンテーションマップとの相関関係をモデル化し,その寄与を確実にすることが必要である。
意味関連表現学習を実現するために,フレームワークに潜在拡散モデルを導入する。
特に, 拡散モデルでは, 地中セグメンテーションマップの条件生成過程を学習し, 実験段階では地中セグメンテーション処理を行う場合, 地中セグメンテーション推定に繋がる。
条件拡散モデルとして、条件変数がモデル出力に寄与することを保証することが不可欠である。
次に, モデル予測と音声データとの相互情報を最大化することと一致した音声と視覚の対応を学習するために, コントラスト学習をフレームワークに導入する。
このように、コントラスト学習による潜在拡散モデルは、AVSに対する音声の寄与を明示的に最大化する。
ベンチマークデータセットにおける実験結果は,本ソリューションの有効性を検証する。
コードと結果は、プロジェクトページでオンライン公開されている。
関連論文リスト
- Do Audio-Visual Segmentation Models Truly Segment Sounding Objects? [38.98706069359109]
AVSBench-Robustは、サイレント、環境騒音、オフスクリーン音を含む様々なネガティブなオーディオシナリオを取り入れたベンチマークである。
提案手法は, ほぼ完全な偽陽性率を維持しながら, 標準測定値とロバストネス測定値の両方において顕著な改善を実現している。
論文 参考訳(メタデータ) (2025-02-01T07:40:29Z) - Diffusion-based Unsupervised Audio-visual Speech Enhancement [26.937216751657697]
本稿では,新しい教師なし音声-視覚音声強調(AVSE)手法を提案する。
拡散に基づく音声視覚音声生成モデルと非負行列分解(NMF)ノイズモデルを組み合わせる。
実験結果から,提案手法は音声のみのアプローチより優れているだけでなく,近年の教師付き生成型AVSE法よりも優れていたことが確認された。
論文 参考訳(メタデータ) (2024-10-04T12:22:54Z) - Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - Audio-visual speech enhancement with a deep Kalman filter generative
model [0.0]
本稿では,潜伏変数に対するマルコフ連鎖モデルを想定したオーディオビジュアルディープカルマンフィルタ(AV-DKF)生成モデルを提案する。
テスト時に音声信号を推定する効率的な推論手法を開発した。
論文 参考訳(メタデータ) (2022-11-02T09:50:08Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - Deep Variational Generative Models for Audio-visual Speech Separation [33.227204390773316]
クリーン音声の音声・視覚生成モデルに基づく教師なし手法を提案する。
視覚情報をよりよく活用するために、混合音声から潜伏変数の後部を推定する。
実験の結果,非教師付きVAE法はNMF法よりも分離性能がよいことがわかった。
論文 参考訳(メタデータ) (2020-08-17T10:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。