論文の概要: SlimSpeech: Lightweight and Efficient Text-to-Speech with Slim Rectified Flow
- arxiv url: http://arxiv.org/abs/2504.07776v1
- Date: Thu, 10 Apr 2025 14:15:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:19:45.450046
- Title: SlimSpeech: Lightweight and Efficient Text-to-Speech with Slim Rectified Flow
- Title(参考訳): SlimSpeech:スリム整流による軽量かつ効率的なテキスト音声合成
- Authors: Kaidi Wang, Wenhao Guan, Shenghui Lu, Jianglong Yao, Lin Li, Qingyang Hong,
- Abstract要約: 整流に基づく軽量かつ効率的な音声合成システムであるSlimSpeechを紹介する。
実験の結果,提案手法は1ステップのサンプリングにより大規模モデルに匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 12.634298353225455
- License:
- Abstract: Recently, flow matching based speech synthesis has significantly enhanced the quality of synthesized speech while reducing the number of inference steps. In this paper, we introduce SlimSpeech, a lightweight and efficient speech synthesis system based on rectified flow. We have built upon the existing speech synthesis method utilizing the rectified flow model, modifying its structure to reduce parameters and serve as a teacher model. By refining the reflow operation, we directly derive a smaller model with a more straight sampling trajectory from the larger model, while utilizing distillation techniques to further enhance the model performance. Experimental results demonstrate that our proposed method, with significantly reduced model parameters, achieves comparable performance to larger models through one-step sampling.
- Abstract(参考訳): 近年,フローマッチングに基づく音声合成により,合成音声の品質が著しく向上し,推論ステップの削減が図られている。
本稿では,整流に基づく軽量かつ効率的な音声合成システムであるSlimSpeechを紹介する。
我々は,修正フローモデルを用いた既存の音声合成手法を構築し,パラメータの削減と教師モデルとして機能するためにその構造を変更した。
リフロー操作を精製することにより、より直線的なサンプリング軌道を持つより小さなモデルを直接導出すると同時に、蒸留技術を利用してモデル性能をさらに向上する。
実験の結果,提案手法はモデルパラメータを大幅に削減し,一段階のサンプリングにより大規模モデルに匹敵する性能を示した。
関連論文リスト
- Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - DMOSpeech: Direct Metric Optimization via Distilled Diffusion Model in Zero-Shot Speech Synthesis [12.310318928818546]
DMOSpeechは, 蒸留拡散に基づくTSモデルであり, 教師モデルと比較して高速な推論と優れた性能を実現する。
我々の総合的な実験は、人間の広範囲な評価によって検証され、自然性、知性、話者の類似性を大幅に向上させながら、推測時間を桁違いに減らした。
本研究は,音声合成と人間の聴覚嗜好を協調する新たな枠組みを,直接的メートル法最適化により確立する。
論文 参考訳(メタデータ) (2024-10-14T21:17:58Z) - ReTok: Replacing Tokenizer to Enhance Representation Efficiency in Large Language Model [9.1108256816605]
大規模言語モデル(LLM)のトークン化機能を置き換えることにより,モデル表現と処理効率を向上させる手法を提案する。
本手法は,トークン化器を置き換えたモデルの性能を維持しつつ,長文の復号速度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-06T03:01:07Z) - VoiceFlow: Efficient Text-to-Speech with Rectified Flow Matching [14.7974342537458]
VoiceFlowは,修正フローマッチングアルゴリズムを用いて,限られたサンプリングステップ数で高い合成品質を実現する音響モデルである。
単話者コーパスと多話者コーパスの主観的および客観的評価の結果,VoiceFlowの合成品質は拡散コーパスに比べて優れていた。
論文 参考訳(メタデータ) (2023-09-10T13:47:39Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for
Pre-trained Language Models [90.24999406296867]
標準の微調整とは対照的に、デルタチューニングはモデルパラメータのごく一部を微調整するだけであり、残りは触れないままである。
近年の研究では、パラメータ選択の異なる一連のデルタチューニング手法が、フルパラメータの微調整と同等の性能を達成できることが示されている。
論文 参考訳(メタデータ) (2022-03-14T07:56:32Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Noise Estimation for Generative Diffusion Models [91.22679787578438]
そこで本研究では,任意のステップの雑音パラメータを調整可能な,単純で汎用的な学習手法を提案する。
私たちのアプローチは計算コストが無視できるものです。
論文 参考訳(メタデータ) (2021-04-06T15:46:16Z) - Efficient End-to-End Speech Recognition Using Performers in Conformers [74.71219757585841]
モデルサイズに加えて,モデルアーキテクチャの複雑さを低減することを提案する。
提案モデルにより,1000万のパラメータと線形複雑度を持つLibriSpeechコーパス上での競合性能が得られた。
論文 参考訳(メタデータ) (2020-11-09T05:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。