論文の概要: ECTSpeech: Enhancing Efficient Speech Synthesis via Easy Consistency Tuning
- arxiv url: http://arxiv.org/abs/2510.05984v1
- Date: Tue, 07 Oct 2025 14:44:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-27 22:13:09.406663
- Title: ECTSpeech: Enhancing Efficient Speech Synthesis via Easy Consistency Tuning
- Title(参考訳): ECTSpeech: 簡便な一貫性チューニングによる効率的な音声合成を実現する
- Authors: Tao Zhu, Yinfeng Yu, Liejun Wang, Fuchun Sun, Wendong Zheng,
- Abstract要約: 本稿では,シンプルで効果的なワンステップ合成フレームワークであるECTSpeechを提案する。
ECTSpeechは Easy Consistency Tuning (ECT) 戦略を音声合成に取り入れている。
我々は,ECTSpeechが単一ステップサンプリングによる最先端手法に匹敵する音質を実現することを示す。
- 参考スコア(独自算出の注目度): 37.55301116117562
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion models have demonstrated remarkable performance in speech synthesis, but typically require multi-step sampling, resulting in low inference efficiency. Recent studies address this issue by distilling diffusion models into consistency models, enabling efficient one-step generation. However, these approaches introduce additional training costs and rely heavily on the performance of pre-trained teacher models. In this paper, we propose ECTSpeech, a simple and effective one-step speech synthesis framework that, for the first time, incorporates the Easy Consistency Tuning (ECT) strategy into speech synthesis. By progressively tightening consistency constraints on a pre-trained diffusion model, ECTSpeech achieves high-quality one-step generation while significantly reducing training complexity. In addition, we design a multi-scale gate module (MSGate) to enhance the denoiser's ability to fuse features at different scales. Experimental results on the LJSpeech dataset demonstrate that ECTSpeech achieves audio quality comparable to state-of-the-art methods under single-step sampling, while substantially reducing the model's training cost and complexity.
- Abstract(参考訳): 拡散モデルは音声合成において顕著な性能を示してきたが、通常、多段階サンプリングを必要とするため、推論効率は低い。
近年の研究では、拡散モデルを一貫性モデルに蒸留することでこの問題に対処し、効率的なワンステップ生成を可能にしている。
しかし、これらのアプローチは追加のトレーニングコストを導入し、事前訓練された教師モデルの性能に大きく依存する。
本稿では,簡単な一段階音声合成フレームワークであるECTSpeechを提案する。
事前学習した拡散モデル上での一貫性制約を徐々に強化することにより、ECTSpeechは、トレーニングの複雑さを著しく低減しつつ、高品質なワンステップ生成を実現する。
さらに,マルチスケールゲートモジュール(MSGate)を設計し,異なるスケールで機能を融合するデノイザの能力を高める。
LJSpeechデータセットの実験結果は、ECTSpeechが単一ステップサンプリングによる最先端の手法に匹敵するオーディオ品質を実現し、モデルのトレーニングコストと複雑さを大幅に低減することを示した。
関連論文リスト
- Shortcut Flow Matching for Speech Enhancement: Step-Invariant flows via single stage training [20.071957855504206]
拡散に基づく生成モデルは、音声強調における知覚品質の最先端性能を達成した。
音声強調のためのショートカットフローマッチング(SFMSE)を導入する。
その結果,一段階のSFMSE推論により,コンシューマGPU上でのリアルタイム係数(RTF)が0.013となることを示した。
論文 参考訳(メタデータ) (2025-09-25T20:09:05Z) - SlimSpeech: Lightweight and Efficient Text-to-Speech with Slim Rectified Flow [12.634298353225455]
整流に基づく軽量かつ効率的な音声合成システムであるSlimSpeechを紹介する。
実験の結果,提案手法は1ステップのサンプリングにより大規模モデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-04-10T14:15:18Z) - DMOSpeech: Direct Metric Optimization via Distilled Diffusion Model in Zero-Shot Speech Synthesis [12.310318928818546]
DMOSpeechは, 蒸留拡散に基づくTSモデルであり, 教師モデルと比較して高速な推論と優れた性能を実現する。
我々の総合的な実験は、人間の広範囲な評価によって検証され、自然性、知性、話者の類似性を大幅に向上させながら、推測時間を桁違いに減らした。
本研究は,音声合成と人間の聴覚嗜好を協調する新たな枠組みを,直接的メートル法最適化により確立する。
論文 参考訳(メタデータ) (2024-10-14T21:17:58Z) - CM-TTS: Enhancing Real Time Text-to-Speech Synthesis Efficiency through Weighted Samplers and Consistency Models [30.68516200579894]
一貫性モデル(CM)に基づく新しいアーキテクチャであるCM-TTSを紹介する。
CM-TTSは、対戦訓練や事前訓練されたモデル依存なしに、より少ないステップで高品質な音声合成を実現する。
包括的評価により検証した実時間メル-クログラム生成一貫性モデルを提案する。
論文 参考訳(メタデータ) (2024-03-31T05:38:08Z) - Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis [35.16243386407448]
Bridge-TTSは、確立された拡散に基づくTS法において、ノイズの多いガウスをクリーンで決定論的に置き換える新しいTSシステムである。
具体的には、テキスト入力から得られた潜伏表現を前もって利用し、それと地上トルス・メル・スペクトログラムの間に完全にトラクタブルなシュロディンガーブリッジを構築する。
論文 参考訳(メタデータ) (2023-12-06T13:31:55Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。