論文の概要: Unsupervised speech enhancement with diffusion-based generative models
- arxiv url: http://arxiv.org/abs/2309.10450v1
- Date: Tue, 19 Sep 2023 09:11:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 15:26:13.633377
- Title: Unsupervised speech enhancement with diffusion-based generative models
- Title(参考訳): 拡散モデルを用いた教師なし音声強調
- Authors: Bern\'e Nortier (MULTISPEECH), Mostafa Sadeghi (MULTISPEECH), Romain
Serizel (MULTISPEECH)
- Abstract要約: 拡散モデルの生成力を生かし、教師なしの方法で機能する代替手法を提案する。
本研究では,学習したクリーン音声と音声信号推論のための雑音モデルを組み合わせることで,音声強調のための後部サンプリング手法を開発した。
近年の変分オートエンコーダ (VAE) による教師なし手法と, 最先端の拡散型教師方式と比較して, 有望な結果が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, conditional score-based diffusion models have gained significant
attention in the field of supervised speech enhancement, yielding
state-of-the-art performance. However, these methods may face challenges when
generalising to unseen conditions. To address this issue, we introduce an
alternative approach that operates in an unsupervised manner, leveraging the
generative power of diffusion models. Specifically, in a training phase, a
clean speech prior distribution is learnt in the short-time Fourier transform
(STFT) domain using score-based diffusion models, allowing it to
unconditionally generate clean speech from Gaussian noise. Then, we develop a
posterior sampling methodology for speech enhancement by combining the learnt
clean speech prior with a noise model for speech signal inference. The noise
parameters are simultaneously learnt along with clean speech estimation through
an iterative expectationmaximisation (EM) approach. To the best of our
knowledge, this is the first work exploring diffusion-based generative models
for unsupervised speech enhancement, demonstrating promising results compared
to a recent variational auto-encoder (VAE)-based unsupervised approach and a
state-of-the-art diffusion-based supervised method. It thus opens a new
direction for future research in unsupervised speech enhancement.
- Abstract(参考訳): 近年,教師付き音声強調の分野において,条件付スコアに基づく拡散モデルが注目されている。
しかし、これらの手法は、目に見えない条件に一般化する際に困難に直面する可能性がある。
この問題に対処するために,拡散モデルの生成力を生かし,教師なしの方法で機能する代替手法を提案する。
具体的には、学習段階において、スコアベース拡散モデルを用いて短時間フーリエ変換(STFT)領域でクリーン音声先行分布を学習し、ガウス雑音からクリーン音声を無条件に生成する。
そこで我々は,学習したクリーン音声と音声信号推論のための雑音モデルを組み合わせることで,音声強調のための後部サンプリング手法を開発した。
雑音パラメータは、反復期待最大化(em)アプローチにより、クリーンな音声推定と共に同時に学習される。
我々の知る限りでは、近年の変分自動エンコーダ(VAE)に基づく非教師付きアプローチと最先端拡散に基づく教師付き手法と比較して有望な結果を示す、教師なし音声強調のための拡散ベース生成モデルに関する最初の研究である。
これにより、教師なし音声強調の今後の研究に新たな方向性が開ける。
関連論文リスト
- Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Diffusion-based Unsupervised Audio-visual Speech Enhancement [26.937216751657697]
本稿では,新しい教師なし音声強調(AVSE)手法を提案する。
拡散に基づく音声視覚音声生成モデルと非負行列分解(NMF)ノイズモデルを組み合わせる。
実験結果から,提案手法は音声のみのアプローチより優れているだけでなく,近年の教師付き AVSE 法よりも優れていたことが確認された。
論文 参考訳(メタデータ) (2024-10-04T12:22:54Z) - GLA-Grad: A Griffin-Lim Extended Waveform Generation Diffusion Model [0.0]
本稿では,Griffin-Limアルゴリズム(GLA)のような位相回復アルゴリズムを正規拡散過程の各ステップで導入するGLA-Gradを提案する。
提案アルゴリズムは,従来未確認の話者に対して音声を生成する場合に,音声生成のための最先端拡散モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-09T12:12:52Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Investigating the Design Space of Diffusion Models for Speech Enhancement [17.914763947871368]
拡散モデルは、画像生成文学において優れた性能を示す新しい生成モデルである。
従来の拡散型音声強調システムの性能は、清潔な音声信号と雑音の多い音声信号の間の進行的な変換によるものではないことを示す。
また,プレコンディショニング,トレーニング損失重み付け,SDE,サンプル処理の適切な選択により,一般的な拡散に基づく音声強調システムよりも優れることを示す。
論文 参考訳(メタデータ) (2023-12-07T15:40:55Z) - Diffusion-based speech enhancement with a weighted generative-supervised
learning loss [0.0]
拡散に基づく生成モデルは近年,音声強調(SE)において注目を集めている。
そこで本研究では,従来の拡散訓練目標を平均二乗誤差(MSE)損失で拡張することを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:35Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z) - Speech Enhancement and Dereverberation with Diffusion-based Generative
Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。
提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。
大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文 参考訳(メタデータ) (2022-08-11T13:55:12Z) - Conditional Diffusion Probabilistic Model for Speech Enhancement [101.4893074984667]
本稿では,観測された雑音の音声信号の特徴を拡散・逆過程に組み込む新しい音声強調アルゴリズムを提案する。
本実験では, 代表的な生成モデルと比較して, 提案手法の強い性能を示す。
論文 参考訳(メタデータ) (2022-02-10T18:58:01Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。