論文の概要: DMDSpeech: Distilled Diffusion Model Surpassing The Teacher in Zero-shot Speech Synthesis via Direct Metric Optimization
- arxiv url: http://arxiv.org/abs/2410.11097v1
- Date: Mon, 14 Oct 2024 21:17:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:00:50.989875
- Title: DMDSpeech: Distilled Diffusion Model Surpassing The Teacher in Zero-shot Speech Synthesis via Direct Metric Optimization
- Title(参考訳): DMDSpeech:直接メートル法最適化によるゼロショット音声合成における教師を通した蒸留拡散モデル
- Authors: Yingahao Aaron Li, Rithesh Kumar, Zeyu Jin,
- Abstract要約: そこで本研究では, 直接的エンドツーエンド評価を用いたTS拡散モデルの蒸留法を提案する。
DMDSpeechは、自然性と話者類似性の両方において、従来の最先端モデルより一貫して上回っていることを示す。
この研究は、音声合成における直接メートル法最適化の可能性を強調し、モデルが人間の聴覚的嗜好とよりよく一致できるようにする。
- 参考スコア(独自算出の注目度): 12.310318928818546
- License:
- Abstract: Diffusion models have demonstrated significant potential in speech synthesis tasks, including text-to-speech (TTS) and voice cloning. However, their iterative denoising processes are inefficient and hinder the application of end-to-end optimization with perceptual metrics. In this paper, we propose a novel method of distilling TTS diffusion models with direct end-to-end evaluation metric optimization, achieving state-of-the-art performance. By incorporating Connectionist Temporal Classification (CTC) loss and Speaker Verification (SV) loss, our approach optimizes perceptual evaluation metrics, leading to notable improvements in word error rate and speaker similarity. Our experiments show that DMDSpeech consistently surpasses prior state-of-the-art models in both naturalness and speaker similarity while being significantly faster. Moreover, our synthetic speech has a higher level of voice similarity to the prompt than the ground truth in both human evaluation and objective speaker similarity metric. This work highlights the potential of direct metric optimization in speech synthesis, allowing models to better align with human auditory preferences. The audio samples are available at https://dmdspeech.github.io/.
- Abstract(参考訳): 拡散モデルは、テキスト音声合成(TTS)や音声のクローニングなど、音声合成タスクにおいて大きな可能性を示している。
しかし、反復的なデノベーションプロセスは非効率であり、知覚的メトリクスによるエンドツーエンドの最適化の適用を妨げる。
本稿では,TTS拡散モデルの直接的エンドツーエンド評価手法による蒸留を行い,最先端性能を実現する手法を提案する。
コネクショニスト時間分類(CTC)の損失と話者検証(SV)の損失を取り入れることで、知覚評価の指標を最適化し、単語誤り率と話者類似度を顕著に改善する。
実験の結果,DMDSpeechは自然性と話者の類似性の両方において,従来の最先端モデルよりもはるかに高速であることがわかった。
さらに, 音声合成音声は, 人的評価と主観的話者類似度測定の両方において, 基礎的真理よりも音声類似度が高い。
この研究は、音声合成における直接メートル法最適化の可能性を強調し、モデルが人間の聴覚的嗜好とよりよく一致できるようにする。
オーディオサンプルはhttps://dmdspeech.github.io/で公開されている。
関連論文リスト
- Sample-Efficient Diffusion for Text-To-Speech Synthesis [31.372486998377966]
U-Audio Transformer (U-AT)と呼ばれる新しい拡散アーキテクチャに基づいている。
SESDは1k時間未満の音声のトレーニングにもかかわらず、印象的な結果が得られる。
2%未満のトレーニングデータを使用しながら、最先端の自己回帰モデルであるVALL-Eよりも知的な音声を合成する。
論文 参考訳(メタデータ) (2024-09-01T20:34:36Z) - Towards Improving NAM-to-Speech Synthesis Intelligibility using Self-Supervised Speech Models [24.943609458024596]
そこで本研究では,音声変換タスクにおける非可聴型Murmur(NAM)の信頼性を向上するための新しい手法を提案する。
本手法は, 音声合成の自己超越と音声合成に頼っている。
本手法は,Mel-Cepstral Distortion(MCD)測定値の29.08%の改善により,現在のSOTA(State-of-the-art)を上回った。
論文 参考訳(メタデータ) (2024-07-26T06:44:01Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency
Model [41.21042900853639]
本研究では,単一拡散サンプリングステップによる音声合成を実現する"Co"sistency "Mo"del-based "Speech"合成法,"CoMoSpeech"を提案する。
単一のサンプリングステップで音声録音を生成することで、CoMoSpeechはリアルタイムよりも150倍以上高速な推論速度を実現する。
論文 参考訳(メタデータ) (2023-05-11T15:51:46Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。