論文の概要: UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion
Model
- arxiv url: http://arxiv.org/abs/2306.00721v2
- Date: Thu, 12 Oct 2023 10:32:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 03:42:21.072432
- Title: UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion
Model
- Title(参考訳): UnDiff:無条件拡散モデルによる教師なし音声復元
- Authors: Anastasiia Iashchenko, Pavel Andreev, Ivan Shchekotov, Nicholas
Babaev, Dmitry Vetrov
- Abstract要約: UnDiffは様々な音声逆タスクを解くことができる拡散確率モデルである。
インバージョン劣化、ニューラルボコーディング、ソース分離など、さまざまなタスクに適応することができる。
- 参考スコア(独自算出の注目度): 1.0874597293913013
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces UnDiff, a diffusion probabilistic model capable of
solving various speech inverse tasks. Being once trained for speech waveform
generation in an unconditional manner, it can be adapted to different tasks
including degradation inversion, neural vocoding, and source separation. In
this paper, we, first, tackle the challenging problem of unconditional waveform
generation by comparing different neural architectures and preconditioning
domains. After that, we demonstrate how the trained unconditional diffusion
could be adapted to different tasks of speech processing by the means of recent
developments in post-training conditioning of diffusion models. Finally, we
demonstrate the performance of the proposed technique on the tasks of bandwidth
extension, declipping, vocoding, and speech source separation and compare it to
the baselines. The codes are publicly available.
- Abstract(参考訳): 本稿では,様々な音声逆タスクを解くことができる拡散確率モデルUnDiffを紹介する。
かつては無条件に音声波形生成を訓練していたため、劣化インバージョン、ニューラルボコーディング、ソース分離といった様々なタスクに適応することができる。
本稿では,まず,異なるニューラルアーキテクチャとプレコンディショニング領域を比較し,非条件波形生成の課題に対処する。
その後、近年の拡散モデルの訓練後条件付けにより、訓練済みの非条件拡散が音声処理の異なるタスクにどのように適応できるかを実証する。
最後に,帯域幅拡張,デクリッピング,vocoding,音声ソース分離などのタスクにおける提案手法の性能を示し,ベースラインと比較する。
コードは公開されている。
関連論文リスト
- A Versatile Diffusion Transformer with Mixture of Noise Levels for Audiovisual Generation [32.648815593259485]
オーディオヴィジュアルシーケンスのためのトレーニング拡散モデルは、様々な生成タスクを可能にする。
聴覚空間における任意の条件分布を効果的に学習するための新しい学習手法を提案する。
論文 参考訳(メタデータ) (2024-05-22T15:47:14Z) - DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform
Generation [25.968115316199246]
本研究では,生音声波形を生成する拡散確率的エンドツーエンドモデルを提案する。
我々のモデルは自己回帰的であり、重なり合うフレームを生成し、各フレームは以前に生成されたフレームの一部に条件付けされる。
実験により,提案モデルが他の最先端のニューラル音声生成システムと比較して,高品質な音声を生成することが示された。
論文 参考訳(メタデータ) (2023-10-02T17:42:22Z) - uSee: Unified Speech Enhancement and Editing with Conditional Diffusion
Models [57.71199494492223]
本稿では,条件付き拡散モデルを用いた統一音声強調編集(uSee)モデルを提案する。
実験の結果,提案したuSeeモデルは,他の生成的音声強調モデルと比較して,発声および発声の双方において優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-02T04:36:39Z) - Unsupervised speech enhancement with diffusion-based generative models [0.0]
拡散モデルの生成力を生かし、教師なしの方法で機能する代替手法を提案する。
本研究では,学習したクリーン音声と音声信号推論のための雑音モデルを組み合わせることで,音声強調のための後部サンプリング手法を開発した。
近年の変分オートエンコーダ (VAE) による教師なし手法と, 最先端の拡散型教師方式と比較して, 有望な結果が得られた。
論文 参考訳(メタデータ) (2023-09-19T09:11:31Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - DiffVoice: Text-to-Speech with Latent Diffusion [18.150627638754923]
本稿では,遅延拡散に基づく新しい音声合成モデルDiffVoiceを提案する。
LJSpeech と LibriTTS データセットの主観評価は,本手法が自然界で最高の公開システムに勝っていることを示す。
論文 参考訳(メタデータ) (2023-04-23T21:05:33Z) - Separate And Diffuse: Using a Pretrained Diffusion Model for Improving
Source Separation [99.19786288094596]
上界をランダムな生成モデルに一般化する方法を示す。
複数のベンチマークで2, 3, 5, 10, 20人の話者に最先端の結果を示す。
論文 参考訳(メタデータ) (2023-01-25T18:21:51Z) - SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers [50.90457644954857]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。
シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。
実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T15:16:24Z) - Speech Enhancement and Dereverberation with Diffusion-based Generative
Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。
提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。
大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文 参考訳(メタデータ) (2022-08-11T13:55:12Z) - Conditional Diffusion Probabilistic Model for Speech Enhancement [101.4893074984667]
本稿では,観測された雑音の音声信号の特徴を拡散・逆過程に組み込む新しい音声強調アルゴリズムを提案する。
本実験では, 代表的な生成モデルと比較して, 提案手法の強い性能を示す。
論文 参考訳(メタデータ) (2022-02-10T18:58:01Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。