Fugu-MT 論文翻訳(概要): Contrastive Conditional Latent Diffusion for Audio-visual Segmentation

論文の概要: Contrastive Conditional Latent Diffusion for Audio-visual Segmentation

arxiv url: http://arxiv.org/abs/2307.16579v1
Date: Mon, 31 Jul 2023 11:29:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-01 14:52:12.228338
Title: Contrastive Conditional Latent Diffusion for Audio-visual Segmentation
Title（参考訳）: 音声視覚分割のためのコントラスト条件付き潜時拡散法
Authors: Yuxin Mao, Jing Zhang, Mochu Xiang, Yunqiu Lv, Yiran Zhong, Yuchao Dai
Abstract要約: 意味関連表現学習を実現するために,潜在拡散モデルを提案する。我々は条件変数がモデル出力に寄与することを確実にすることが不可欠であると主張する。
参考スコア（独自算出の注目度）: 37.83055692562661
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a latent diffusion model with contrastive learning for audio-visual segmentation (AVS) to extensively explore the contribution of audio. We interpret AVS as a conditional generation task, where audio is defined as the conditional variable for sound producer(s) segmentation. With our new interpretation, it is especially necessary to model the correlation between audio and the final segmentation map to ensure its contribution. We introduce a latent diffusion model to our framework to achieve semantic-correlated representation learning. Specifically, our diffusion model learns the conditional generation process of the ground-truth segmentation map, leading to ground-truth aware inference when we perform the denoising process at the test stage. As a conditional diffusion model, we argue it is essential to ensure that the conditional variable contributes to model output. We then introduce contrastive learning to our framework to learn audio-visual correspondence, which is proven consistent with maximizing the mutual information between model prediction and the audio data. In this way, our latent diffusion model via contrastive learning explicitly maximizes the contribution of audio for AVS. Experimental results on the benchmark dataset verify the effectiveness of our solution. Code and results are online via our project page: https://github.com/OpenNLPLab/DiffusionAVS.
Abstract（参考訳）: 本稿では,音声・視覚セグメンテーション(avs)のためのコントラスト学習を用いた潜在拡散モデルを提案する。我々は、AVSを条件生成タスクと解釈し、オーディオを音生成器のセグメンテーションの条件変数として定義する。新たな解釈では,音声と最終セグメンテーションマップとの相関関係をモデル化し,その寄与を確実にすることが必要である。意味関連表現学習を実現するために,フレームワークに潜在拡散モデルを導入する。特に, 拡散モデルでは, 地中セグメンテーションマップの条件生成過程を学習し, 実験段階では地中セグメンテーション処理を行う場合, 地中セグメンテーション推定に繋がる。条件拡散モデルとして、条件変数がモデル出力に寄与することを保証することが不可欠である。次に, モデル予測と音声データとの相互情報を最大化することと一致した音声と視覚の対応を学習するために, コントラスト学習をフレームワークに導入する。このように、コントラスト学習による潜在拡散モデルは、AVSに対する音声の寄与を明示的に最大化する。ベンチマークデータセットにおける実験結果は,本ソリューションの有効性を検証する。コードと結果は、プロジェクトページでオンライン公開されている。

関連論文リスト

Do Audio-Visual Segmentation Models Truly Segment Sounding Objects? [38.98706069359109]
AVSBench-Robustは、サイレント、環境騒音、オフスクリーン音を含む様々なネガティブなオーディオシナリオを取り入れたベンチマークである。提案手法は, ほぼ完全な偽陽性率を維持しながら, 標準測定値とロバストネス測定値の両方において顕著な改善を実現している。
論文参考訳（メタデータ） (2025-02-01T07:40:29Z)
D3RM: A Discrete Denoising Diffusion Refinement Model for Piano Transcription [7.108713005834857]
離散拡散モデルを用いたピアノの書き起こしのための新しいアーキテクチャを提案する。提案手法は,F1スコアの点から,従来の拡散型ピアノ書き起こしモデルとベースラインモデルより優れていた。
論文参考訳（メタデータ） (2025-01-09T08:44:06Z)
Diffusion-based Unsupervised Audio-visual Speech Enhancement [26.937216751657697]
本稿では,新しい教師なし音声強調(AVSE)手法を提案する。拡散に基づく音声視覚音声生成モデルと非負行列分解(NMF)ノイズモデルを組み合わせる。実験結果から,提案手法は音声のみのアプローチより優れているだけでなく,近年の教師付き AVSE 法よりも優れていたことが確認された。
論文参考訳（メタデータ） (2024-10-04T12:22:54Z)
Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。 MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文参考訳（メタデータ） (2024-07-15T00:47:56Z)
CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling [21.380988939240844]
ビデオとオーディオの双方向条件生成に適したマルチモーダル拡散モデルを提案する。本稿では,視覚と聴覚の同期を改善するために,協調学習損失を提案する。
論文参考訳（メタデータ） (2023-12-08T23:55:19Z)
DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文参考訳（メタデータ） (2023-08-14T17:29:41Z)
Adversarial Training of Denoising Diffusion Model Using Dual Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文参考訳（メタデータ） (2023-08-03T07:22:04Z)
An Efficient Membership Inference Attack for the Diffusion Model by Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文参考訳（メタデータ） (2023-05-26T16:38:48Z)
VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文参考訳（メタデータ） (2023-03-15T02:16:39Z)
Complete Cross-triplet Loss in Label Space for Audio-visual Cross-modal Retrieval [7.459223771397159]
クロスモーダルデータ(例えばオーディオヴィジュアル)は直接比較できない分布と表現が異なる。オーディオ・ヴィジュアルデータの自然な同期における内在的相関をアノテートされたラベルの助けを借りることで、オーディオ・ヴィジュアル・モダリティ間のギャップを埋めるため、それらの共通部分空間を学習する。ラベルを直接予測して意味的特徴を最適化する新しいAV-CMRモデルを提案する。
論文参考訳（メタデータ） (2022-11-07T10:37:14Z)
Audio-visual speech enhancement with a deep Kalman filter generative model [0.0]
本稿では,潜伏変数に対するマルコフ連鎖モデルを想定したオーディオビジュアルディープカルマンフィルタ(AV-DKF)生成モデルを提案する。テスト時に音声信号を推定する効率的な推論手法を開発した。
論文参考訳（メタデータ） (2022-11-02T09:50:08Z)
TransFusion: Transcribing Speech with Multinomial Diffusion [20.165433724198937]
本研究では,事前学習した音声特徴に基づく拡散モデルを用いて音声認識を行う手法を提案する。我々は,LibriSpeech音声認識ベンチマークにおいて,既存の高性能コントラストモデルに匹敵する性能を示す。また,多項拡散モデルのサンプリングと復号化を効果的に行う新しい手法を提案する。
論文参考訳（メタデータ） (2022-10-14T10:01:43Z)
How Much is Enough? A Study on Diffusion Times in Score-based Generative Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文参考訳（メタデータ） (2022-06-10T15:09:46Z)
Self-Supervised Learning for speech recognition with Intermediate layer supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。 ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。 LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2021-12-16T10:45:05Z)
Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文参考訳（メタデータ） (2021-05-29T09:26:02Z)
Deep Variational Generative Models for Audio-visual Speech Separation [33.227204390773316]
クリーン音声の音声・視覚生成モデルに基づく教師なし手法を提案する。視覚情報をよりよく活用するために、混合音声から潜伏変数の後部を推定する。実験の結果,非教師付きVAE法はNMF法よりも分離性能がよいことがわかった。
論文参考訳（メタデータ） (2020-08-17T10:12:33Z)
Denoising Diffusion Probabilistic Models [91.94962645056896]
拡散確率モデルを用いて高品質な画像合成結果を示す。本研究は,拡散確率モデルとランゲヴィン力学と整合したデノイングスコアとの新たな接続に基づいて設計した重み付き変分境界のトレーニングにより得られた。
論文参考訳（メタデータ） (2020-06-19T17:24:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。