Fugu-MT 論文翻訳(概要): Diffusion Conditional Expectation Model for Efficient and Robust Target Speech Extraction

論文の概要: Diffusion Conditional Expectation Model for Efficient and Robust Target Speech Extraction

arxiv url: http://arxiv.org/abs/2309.13874v1
Date: Mon, 25 Sep 2023 04:58:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-26 17:03:24.611286
Title: Diffusion Conditional Expectation Model for Efficient and Robust Target Speech Extraction
Title（参考訳）: 効率的なロバスト目標音声抽出のための拡散条件予測モデル
Authors: Leying Zhang, Yao Qian, Linfeng Yu, Heming Wang, Xinkai Wang, Hemin Yang, Long Zhou, Shujie Liu, Yanmin Qian, Michael Zeng
Abstract要約: ターゲット音声抽出(TSE)のための条件拡散予測モデル(DCEM)という効率的な生成手法を提案する。ノイズとクリーンな条件の両方で、マルチとシングルスピーカーのシナリオを処理できる。本手法は,従来の手法よりも侵入的指標と非侵入的指標の両方で優れていた。
参考スコア（独自算出の注目度）: 73.43534824551236
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Target Speech Extraction (TSE) is a crucial task in speech processing that focuses on isolating the clean speech of a specific speaker from complex mixtures. While discriminative methods are commonly used for TSE, they can introduce distortion in terms of speech perception quality. On the other hand, generative approaches, particularly diffusion-based methods, can enhance speech quality perceptually but suffer from slower inference speed. We propose an efficient generative approach named Diffusion Conditional Expectation Model (DCEM) for TSE. It can handle multi- and single-speaker scenarios in both noisy and clean conditions. Additionally, we introduce Regenerate-DCEM (R-DCEM) that can regenerate and optimize speech quality based on pre-processed speech from a discriminative model. Our method outperforms conventional methods in terms of both intrusive and non-intrusive metrics and demonstrates notable strengths in inference efficiency and robustness to unseen tasks. Audio examples are available online (https://vivian556123.github.io/dcem).
Abstract（参考訳）: ターゲット音声抽出(TSE)は、複雑な混合物から特定の話者のクリーン音声を分離することに焦点を当てた音声処理において重要な課題である。 TSEでは差別的手法が一般的であるが、音声認識品質の点で歪みを導入することができる。一方で、生成的手法、特に拡散に基づく手法は、知覚的に音声品質を高めることができるが、推論速度が遅い。本稿では,TSEのための拡散条件予測モデル (DCEM) という効率的な生成手法を提案する。ノイズとクリーンな条件の両方で、マルチおよびシングルスピーカーシナリオを処理できる。さらに、識別モデルから事前処理された音声に基づいて、音声品質を再生し、最適化するRegenerate-DCEM(R-DCEM)を導入する。提案手法は,侵入的および非侵入的メトリクスの両面で従来の手法を上回り,未知のタスクに対する推論効率とロバスト性において顕著な強みを示す。オーディオサンプルはオンラインで入手できる(https://vivian556123.github.io/dcem)。

関連論文リスト

SNOOPI: Supercharged One-step Diffusion Distillation with Proper Guidance [12.973835034100428]
本稿では, SNOOPIについて述べる。SNOOPIは, トレーニングと推論の双方において, ワンステップ拡散モデルのガイダンスを高めるために設計された新しいフレームワークである。両教師モデルの指導尺度を変化させることで、出力分布を拡大し、より堅牢なVSD損失が発生し、SBは競争性能を維持しつつ、多様なバックボーンを効果的に実行できる。第2に、負のプロンプトを1段階拡散モデルに統合して、生成した画像中の望ましくない要素を抑圧する、負のアウェイステア注意(Negative-Away Steer Attention, NASA)と呼ばれるトレーニングフリー手法を提案する。
論文参考訳（メタデータ） (2024-12-03T18:56:32Z)
Distillation-Free One-Step Diffusion for Real-World Image Super-Resolution [81.81748032199813]
蒸留不要1ステップ拡散モデルを提案する。具体的には、敵対的訓練に参加するためのノイズ認識識別器(NAD)を提案する。我々は、エッジ対応disTS(EA-DISTS)による知覚損失を改善し、詳細な情報を生成するモデルの能力を向上させる。
論文参考訳（メタデータ） (2024-10-05T16:41:36Z)
Model Will Tell: Training Membership Inference for Diffusion Models [15.16244745642374]
トレーニングメンバーシップ推論(TMI)タスクは、ターゲットモデルのトレーニングプロセスで特定のサンプルが使用されているかどうかを判断することを目的としている。本稿では,拡散モデル内における本質的な生成先行情報を活用することで,TMIタスクの新たな視点を探求する。
論文参考訳（メタデータ） (2024-03-13T12:52:37Z)
Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。 2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文参考訳（メタデータ） (2023-12-20T03:32:58Z)
Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文参考訳（メタデータ） (2023-12-14T11:19:11Z)
Semi-Implicit Denoising Diffusion Models (SIDDMs) [50.30163684539586]
Denoising Diffusion Probabilistic Models (DDPM)のような既存のモデルは、高品質で多様なサンプルを提供するが、本質的に多くの反復的なステップによって遅くなる。暗黙的要因と明示的要因を一致させることにより、この問題に対処する新しいアプローチを導入する。提案手法は拡散モデルに匹敵する生成性能と,少数のサンプリングステップを持つモデルに比較して非常に優れた結果が得られることを示す。
論文参考訳（メタデータ） (2023-06-21T18:49:22Z)
Variance-Preserving-Based Interpolation Diffusion Models for Speech Enhancement [53.2171981279647]
本稿では,VP-および分散拡散(VE)に基づく拡散法の両方をカプセル化するフレームワークを提案する。本研究では,拡散モデルで発生する一般的な困難を解析し,性能の向上とモデルトレーニングの容易化を図る。我々は,提案手法の有効性を示すために,公開ベンチマークを用いたいくつかの手法によるモデルの評価を行った。
論文参考訳（メタデータ） (2023-06-14T14:22:22Z)
How Much is Enough? A Study on Diffusion Times in Score-based Generative Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文参考訳（メタデータ） (2022-06-10T15:09:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。