論文の概要: Separate And Diffuse: Using a Pretrained Diffusion Model for Improving
Source Separation
- arxiv url: http://arxiv.org/abs/2301.10752v1
- Date: Wed, 25 Jan 2023 18:21:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-26 14:34:29.484873
- Title: Separate And Diffuse: Using a Pretrained Diffusion Model for Improving
Source Separation
- Title(参考訳): 分離と拡散:ソース分離を改善するための事前学習拡散モデル
- Authors: Shahar Lutati and Eliya Nachmani and Lior Wolf
- Abstract要約: 上界をランダムな生成モデルに一般化する方法を示す。
複数のベンチマークで2, 3, 5, 10, 20人の話者に最先端の結果を示す。
- 参考スコア(独自算出の注目度): 99.19786288094596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The problem of speech separation, also known as the cocktail party problem,
refers to the task of isolating a single speech signal from a mixture of speech
signals. Previous work on source separation derived an upper bound for the
source separation task in the domain of human speech. This bound is derived for
deterministic models. Recent advancements in generative models challenge this
bound. We show how the upper bound can be generalized to the case of random
generative models. Applying a diffusion model Vocoder that was pretrained to
model single-speaker voices on the output of a deterministic separation model
leads to state-of-the-art separation results. It is shown that this requires
one to combine the output of the separation model with that of the diffusion
model. In our method, a linear combination is performed, in the frequency
domain, using weights that are inferred by a learned model. We show
state-of-the-art results on 2, 3, 5, 10, and 20 speakers on multiple
benchmarks. In particular, for two speakers, our method is able to surpass what
was previously considered the upper performance bound.
- Abstract(参考訳): カクテルパーティー問題(カクテルパーティー問題、英: cocktail party problem)は、音声信号の混合から1つの音声信号を分離する課題である。
ソース分離に関する以前の研究は、人間の発話領域におけるソース分離タスクの上限を導いた。
この境界は決定論的モデルのために導かれる。
生成モデルの最近の進歩はこの限界に挑戦している。
本稿では、上界がランダム生成モデルの場合にどのように一般化できるかを示す。
定性分離モデルの出力に単一話者音声をモデル化するために事前訓練された拡散モデルVocoderを適用すると、最先端の分離結果が得られる。
これは分離モデルの出力と拡散モデルの出力を組み合わせる必要があることを示している。
本手法では,学習モデルによって推定される重みを用いて,周波数領域において線形結合を行う。
複数のベンチマークで2, 3, 5, 10, 20人の話者に最新の結果を示す。
特に2つの話者に対して,提案手法は従来上層性能境界と考えられていたものを上回ることができる。
関連論文リスト
- Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Denoising Diffusion Bridge Models [54.87947768074036]
拡散モデルは、プロセスを使用してデータにノイズをマッピングする強力な生成モデルである。
画像編集のような多くのアプリケーションでは、モデル入力はランダムノイズではない分布から来る。
本研究では, DDBM(Denoising Diffusion Bridge Models)を提案する。
論文 参考訳(メタデータ) (2023-09-29T03:24:24Z) - Monaural Multi-Speaker Speech Separation Using Efficient Transformer
Model [0.0]
月次多話者音声分離」はトランスフォーマーアーキテクチャとその効率的な形式に基づく音声分離モデルを示す。
このモデルは、多様な話者の発話を含むLibriMixデータセットでトレーニングされている。
論文 参考訳(メタデータ) (2023-07-29T15:10:46Z) - UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion
Model [1.0874597293913013]
UnDiffは様々な音声逆タスクを解くことができる拡散確率モデルである。
インバージョン劣化、ニューラルボコーディング、ソース分離など、さまざまなタスクに適応することができる。
論文 参考訳(メタデータ) (2023-06-01T14:22:55Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - Multi-Source Diffusion Models for Simultaneous Music Generation and Separation [17.124189082882395]
私たちは、音楽ソース分離のための標準データセットであるSlakh2100でモデルをトレーニングします。
我々の手法は、生成タスクと分離タスクの両方を処理できる単一のモデルの最初の例である。
論文 参考訳(メタデータ) (2023-02-04T23:18:36Z) - OCD: Learning to Overfit with Conditional Diffusion Models [95.1828574518325]
入力サンプルxに重みを条件付けした動的モデルを提案する。
基本モデルを x とそのラベル y 上で微調整することで得られる重みに一致することを学習する。
論文 参考訳(メタデータ) (2022-10-02T09:42:47Z) - Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。
提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。
標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文 参考訳(メタデータ) (2020-11-14T17:09:03Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。