論文の概要: Diffusion-Based Voice Conversion with Fast Maximum Likelihood Sampling
Scheme
- arxiv url: http://arxiv.org/abs/2109.13821v1
- Date: Tue, 28 Sep 2021 15:48:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 17:53:42.876278
- Title: Diffusion-Based Voice Conversion with Fast Maximum Likelihood Sampling
Scheme
- Title(参考訳): 高速最大確率サンプリング方式による拡散に基づく音声変換
- Authors: Vadim Popov, Ivan Vovk, Vladimir Gogoryan, Tasnima Sadekova, Mikhail
Kudinov, Jiansheng Wei
- Abstract要約: 最も難しいのは、ソース話者とターゲット話者の両方がトレーニングデータセットに属さない場合、最も一般的な場合において、1つの参照発話のみからターゲット音声をコピーすることである。
拡散確率モデルに基づくスケーラブルな高品質なソリューションを提案し、最先端のワンショット音声変換手法と比較して優れた品質を示す。
- 参考スコア(独自算出の注目度): 4.053320933149689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice conversion is a common speech synthesis task which can be solved in
different ways depending on a particular real-world scenario. The most
challenging one often referred to as one-shot many-to-many voice conversion
consists in copying the target voice from only one reference utterance in the
most general case when both source and target speakers do not belong to the
training dataset. We present a scalable high-quality solution based on
diffusion probabilistic modeling and demonstrate its superior quality compared
to state-of-the-art one-shot voice conversion approaches. Moreover, focusing on
real-time applications, we investigate general principles which can make
diffusion models faster while keeping synthesis quality at a high level. As a
result, we develop a novel Stochastic Differential Equations solver suitable
for various diffusion model types and generative tasks as shown through
empirical studies and justify it by theoretical analysis.
- Abstract(参考訳): 音声変換は、特定の現実世界のシナリオに応じて異なる方法で解決できる共通の音声合成タスクである。
最も難しいのは、ソース話者とターゲット話者の両方がトレーニングデータセットに属さない場合、最も一般的な場合において、1つの参照発話のみからターゲット音声をコピーすることである。
拡散確率モデルに基づくスケーラブルな高品質なソリューションを提案し、最先端のワンショット音声変換手法と比較して優れた品質を示す。
さらに, リアルタイムアプリケーションに着目し, 合成品質を高い水準に保ちながら拡散モデルを高速化する一般原理について検討した。
その結果, 種々の拡散モデルタイプや生成タスクに適した確率微分方程式の解法を, 経験的研究により開発し, 理論解析により正当化する。
関連論文リスト
- A Versatile Diffusion Transformer with Mixture of Noise Levels for Audiovisual Generation [32.648815593259485]
オーディオヴィジュアルシーケンスのためのトレーニング拡散モデルは、様々な生成タスクを可能にする。
聴覚空間における任意の条件分布を効果的に学習するための新しい学習手法を提案する。
論文 参考訳(メタデータ) (2024-05-22T15:47:14Z) - Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。
本手法は, 標準確率流モデルの再構成に基づく。
実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文 参考訳(メタデータ) (2024-03-25T17:58:22Z) - DiT-Head: High-Resolution Talking Head Synthesis using Diffusion
Transformers [2.1408617023874443]
拡散変換器をベースとした「DiTヘッド」は,拡散モデルの復調過程を駆動する条件として音声を用いる。
提案手法を学習・評価し,既存の音声音声合成法と比較する。
論文 参考訳(メタデータ) (2023-12-11T14:09:56Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion
Model [1.0874597293913013]
UnDiffは様々な音声逆タスクを解くことができる拡散確率モデルである。
インバージョン劣化、ニューラルボコーディング、ソース分離など、さまざまなタスクに適応することができる。
論文 参考訳(メタデータ) (2023-06-01T14:22:55Z) - SE-Bridge: Speech Enhancement with Consistent Brownian Bridge [18.37042387650827]
音声強調(SE)の新しい手法であるSE-Bridgeを提案する。
提案手法は,同一のPF-ODE軌道上の任意の音声状態が同一の初期状態に対応することを保証する一貫性モデルに基づく。
Brownian Bridgeプロセスを統合することで、モデルは敵の訓練なしに高信頼度音声サンプルを生成することができる。
論文 参考訳(メタデータ) (2023-05-23T08:06:36Z) - A Survey on Audio Diffusion Models: Text To Speech Synthesis and
Enhancement in Generative AI [64.71397830291838]
生成AIは様々な分野で印象的な性能を示しており、音声合成は興味深い方向である。
拡散モデルを最も一般的な生成モデルとし、テキストから音声への拡張と音声への拡張という2つのアクティブなタスクを試みている。
本研究は,既存の調査を補完する音声拡散モデルに関する調査を行う。
論文 参考訳(メタデータ) (2023-03-23T15:17:15Z) - Conditional Diffusion Probabilistic Model for Speech Enhancement [101.4893074984667]
本稿では,観測された雑音の音声信号の特徴を拡散・逆過程に組み込む新しい音声強調アルゴリズムを提案する。
本実験では, 代表的な生成モデルと比較して, 提案手法の強い性能を示す。
論文 参考訳(メタデータ) (2022-02-10T18:58:01Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。