論文の概要: Lightweight and High-Fidelity End-to-End Text-to-Speech with Multi-Band
Generation and Inverse Short-Time Fourier Transform
- arxiv url: http://arxiv.org/abs/2210.15975v1
- Date: Fri, 28 Oct 2022 08:15:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 17:43:40.184737
- Title: Lightweight and High-Fidelity End-to-End Text-to-Speech with Multi-Band
Generation and Inverse Short-Time Fourier Transform
- Title(参考訳): マルチバンド生成と逆短時間フーリエ変換を用いた軽量・高忠実エンドツーエンドテキスト音声合成
- Authors: Masaya Kawamura, Yuma Shirahata, Ryuichi Yamamoto, Kentaro Tachibana
- Abstract要約: マルチバンド生成と逆ショートタイムフーリエ変換を用いた軽量なエンドツーエンドテキスト音声合成モデルを提案する。
実験結果から,本モデルでは音声を自然に合成し,VITSで合成した。
より小型のモデルでは、自然性と推論速度の両方に関して軽量のベースラインモデルよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 9.606821628015933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a lightweight end-to-end text-to-speech model using multi-band
generation and inverse short-time Fourier transform. Our model is based on
VITS, a high-quality end-to-end text-to-speech model, but adopts two changes
for more efficient inference: 1) the most computationally expensive component
is partially replaced with a simple inverse short-time Fourier transform, and
2) multi-band generation, with fixed or trainable synthesis filters, is used to
generate waveforms. Unlike conventional lightweight models, which employ
optimization or knowledge distillation separately to train two cascaded
components, our method enjoys the full benefits of end-to-end optimization.
Experimental results show that our model synthesized speech as natural as that
synthesized by VITS, while achieving a real-time factor of 0.066 on an Intel
Core i7 CPU, 4.1 times faster than VITS. Moreover, a smaller version of the
model significantly outperformed a lightweight baseline model with respect to
both naturalness and inference speed. Code and audio samples are available from
https://github.com/MasayaKawamura/MB-iSTFT-VITS.
- Abstract(参考訳): マルチバンド生成と逆ショートタイムフーリエ変換を用いた軽量なエンドツーエンドテキスト音声合成モデルを提案する。
我々のモデルは、高品質なエンドツーエンドテキスト音声モデルであるVITSに基づいているが、より効率的な推論のために2つの変更を採用する。
1) 計算コストが最も高い成分は、部分的に単純な逆短時間フーリエ変換に置き換えられ、
2) 波形生成には, 固定あるいはトレーニング可能な合成フィルタを用いたマルチバンド生成を用いる。
従来の軽量モデルでは,2つのカスケード成分の学習に最適化や知識蒸留を別々に用いているが,本手法はエンドツーエンド最適化の利点を享受する。
実験の結果,vitsが合成した音声を自然に合成し,intel core i7 cpu上で0.066倍,vitsの4.1倍の速度でリアルタイムに合成できた。
さらに、より小さなモデルでは、自然性と推論速度の両方に関して軽量のベースラインモデルよりも大幅に優れていた。
コードとオーディオサンプルはhttps://github.com/MasayaKawamura/MB-iSTFT-VITSから入手できる。
関連論文リスト
- Frieren: Efficient Video-to-Audio Generation with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - ResGrad: Residual Denoising Diffusion Probabilistic Models for Text to
Speech [37.29193613404699]
DDPMは高忠実度サンプルを生成する能力が強いため、TTS合成において出現している。
従来の研究では、推論ステップの数を最小化しながら、サンプル品質のコストを犠牲にすることで、推論速度の高速化が検討されてきた。
本稿では,既存のTSモデルの出力スペクトルを改良する軽量拡散モデルResGradを提案する。
論文 参考訳(メタデータ) (2022-12-30T02:31:35Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z) - Differentiable Duration Modeling for End-to-End Text-to-Speech [6.571447892202893]
並列テキスト音声合成(TTS)モデルは,最近,高速で自然な音声合成を実現している。
本稿では,入力と出力のモノトニックシーケンスを学習するための可変長法を提案する。
本モデルでは,高忠実度合成を,対向学習と全地下構造時間との整合性の組み合わせにより学習する。
論文 参考訳(メタデータ) (2022-03-21T15:14:44Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Fast-Slow Transformer for Visually Grounding Speech [15.68151998164009]
本稿では,Fast-Slow Transformer for Visually Grounding Speech(FST-VGS)を提案する。
FaST-VGSは、生音声波形と視覚画像の関係を学習するためのトランスフォーマーベースのモデルである。
論文 参考訳(メタデータ) (2021-09-16T18:45:45Z) - Neural Waveshaping Synthesis [0.0]
ニューラルオーディオ合成に対する,新しい,軽量で完全な因果的アプローチを提案する。
ニューラルウェーブシェイピングユニット(NEWT)は、波形領域で直接動作する。
入力信号と出力信号の単純なアフィン変換によって複雑な鼓膜進化を生成する。
論文 参考訳(メタデータ) (2021-07-11T13:50:59Z) - Synthesizer: Rethinking Self-Attention in Transformer Models [93.08171885200922]
ドット積の自己アテンションは、最先端のトランスフォーマーモデルでは不可欠である。
本稿では,ドット製品に基づく自己認識機構がトランスフォーマーモデルの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2020-05-02T08:16:19Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z) - Efficient Trainable Front-Ends for Neural Speech Enhancement [22.313111311130665]
本稿では,高速フーリエ変換を演算するバタフライ機構に基づく,効率的で訓練可能なフロントエンドを提案する。
我々はその精度と効率の利点を低計算型ニューラル音声強調モデルに示す。
論文 参考訳(メタデータ) (2020-02-20T01:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。