論文の概要: LightSpeech: Lightweight and Fast Text to Speech with Neural
Architecture Search
- arxiv url: http://arxiv.org/abs/2102.04040v1
- Date: Mon, 8 Feb 2021 07:45:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 15:54:22.821334
- Title: LightSpeech: Lightweight and Fast Text to Speech with Neural
Architecture Search
- Title(参考訳): LightSpeech: ニューラルネットワークによる軽量で高速な音声テキスト検索
- Authors: Renqian Luo, Xu Tan, Rui Wang, Tao Qin, Jinzhu Li, Sheng Zhao, Enhong
Chen, Tie-Yan Liu
- Abstract要約: 我々は、FastSpeechに基づくより軽量で効率的なTSモデルを自動的に設計するLightSpeechを提案する。
実験の結果,提案手法により検出されたモデルは,CPU上での15倍のモデル圧縮比と6.5倍の推論高速化を実現していることがわかった。
- 参考スコア(独自算出の注目度): 127.56834100382878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text to speech (TTS) has been broadly used to synthesize natural and
intelligible speech in different scenarios. Deploying TTS in various end
devices such as mobile phones or embedded devices requires extremely small
memory usage and inference latency. While non-autoregressive TTS models such as
FastSpeech have achieved significantly faster inference speed than
autoregressive models, their model size and inference latency are still large
for the deployment in resource constrained devices. In this paper, we propose
LightSpeech, which leverages neural architecture search~(NAS) to automatically
design more lightweight and efficient models based on FastSpeech. We first
profile the components of current FastSpeech model and carefully design a novel
search space containing various lightweight and potentially effective
architectures. Then NAS is utilized to automatically discover well performing
architectures within the search space. Experiments show that the model
discovered by our method achieves 15x model compression ratio and 6.5x
inference speedup on CPU with on par voice quality. Audio demos are provided at
https://speechresearch.github.io/lightspeech.
- Abstract(参考訳): text to speech (tts) は自然言語と理解可能な音声を異なるシナリオで合成するために広く使われている。
携帯電話や組み込みデバイスなど、さまざまなエンドデバイスにTSをデプロイするには、メモリ使用量と推論レイテンシが極めて少なくなる。
FastSpeechのような非自己回帰型TSSモデルは、自己回帰型モデルよりもはるかに高速な推論速度を達成したが、そのモデルサイズと推論遅延は、リソース制約されたデバイスへのデプロイにおいて依然として大きい。
本稿では,FastSpeechに基づくより軽量で効率的なモデルの自動設計にニューラルアーキテクチャサーチ~(NAS)を利用するLightSpeechを提案する。
まず、現在のfastspeechモデルのコンポーネントをプロファイルし、様々な軽量で潜在的に有効なアーキテクチャを含む新しい検索空間を慎重に設計する。
そして、NASを用いて検索空間内の優れたアーキテクチャを自動的に発見する。
実験の結果,本手法で発見されたモデルが15倍圧縮比と6.5倍推定速度を達成した。
オーディオデモはhttps://speechresearch.github.io/lightspeechで提供されている。
関連論文リスト
- NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - ResGrad: Residual Denoising Diffusion Probabilistic Models for Text to
Speech [37.29193613404699]
DDPMは高忠実度サンプルを生成する能力が強いため、TTS合成において出現している。
従来の研究では、推論ステップの数を最小化しながら、サンプル品質のコストを犠牲にすることで、推論速度の高速化が検討されてきた。
本稿では,既存のTSモデルの出力スペクトルを改良する軽量拡散モデルResGradを提案する。
論文 参考訳(メタデータ) (2022-12-30T02:31:35Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z) - On-device neural speech synthesis [3.716815259884143]
TacotronとWaveRNNは、完全なニューラルネットワークベースのTSシステムの構築を可能にした。
我々は、これらのモデルをGPUサーバやモバイルデバイスにデプロイするための重要なモデリング改善と最適化戦略を示す。
提案システムは,サーバ上のリアルタイムよりも5倍,モバイルデバイス上では3倍の速さで,高品質な24kHz音声を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T18:31:31Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - STYLER: Style Modeling with Rapidity and Robustness via
SpeechDecomposition for Expressive and Controllable Neural Text to Speech [2.622482339911829]
STYLERは並列化アーキテクチャを持つ新しい表現型テキスト音声合成モデルである。
提案手法は, 雑音を伝達することなく, ドメイン逆学習と残余復号化を併用した音声からのノイズモデリング手法である。
論文 参考訳(メタデータ) (2021-03-17T07:11:09Z) - VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T14:26:56Z) - FastSpeech 2: Fast and High-Quality End-to-End Text to Speech [189.05831125931053]
FastSpeechのような非自己回帰テキスト・トゥ・スピーチ(TTS)モデルは、同等の品質の以前の自己回帰モデルよりもはるかに高速に音声を合成することができる。
FastSpeechには,(1)教師-学生蒸留パイプラインが複雑で時間を要すること,(2)教師モデルから抽出した期間が十分正確でないこと,(2)教師モデルから抽出したターゲットメル-スペクトログラムが情報損失に悩まされていること,など,いくつかの欠点がある。
我々は,教師の簡易な出力ではなく,接地目標でモデルを直接訓練するFastSpeech 2を提案する。
論文 参考訳(メタデータ) (2020-06-08T13:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。