Fugu-MT 論文翻訳(概要): Nix-TTS: An Incredibly Lightweight End-to-End Text-to-Speech Model via Non End-to-End Distillation

論文の概要: Nix-TTS: An Incredibly Lightweight End-to-End Text-to-Speech Model via Non End-to-End Distillation

arxiv url: http://arxiv.org/abs/2203.15643v1
Date: Tue, 29 Mar 2022 15:04:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-30 13:32:23.884727
Title: Nix-TTS: An Incredibly Lightweight End-to-End Text-to-Speech Model via Non End-to-End Distillation
Title（参考訳）: nix-tts:非エンド・ツー・エンド蒸留による驚くほど軽量なエンドツーエンドテキスト・ツー・スパイチモデル
Authors: Rendi Chevi, Radityo Eko Prasojo, Alham Fikri Aji
Abstract要約: 我々は,軽量なニューラルTS(Text-to-Speech)モデルであるNix-TTSを提案する。我々は、知識蒸留を、強力ながら大規模なTTS教師モデルに適用する。 Nix-TTSはエンド・ツー・エンド(ヴォコーダフリー)で、5.23Mのパラメータしか持たない。
参考スコア（独自算出の注目度）: 4.995698126365142
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose Nix-TTS, a lightweight neural TTS (Text-to-Speech) model achieved by applying knowledge distillation to a powerful yet large-sized generative TTS teacher model. Distilling a TTS model might sound unintuitive due to the generative and disjointed nature of TTS architectures, but pre-trained TTS models can be simplified into encoder and decoder structures, where the former encodes text into some latent representation and the latter decodes the latent into speech data. We devise a framework to distill each component in a non end-to-end fashion. Nix-TTS is end-to-end (vocoder-free) with only 5.23M parameters or up to 82\% reduction of the teacher model, it achieves over 3.26$\times$ and 8.36$\times$ inference speedup on Intel-i7 CPU and Raspberry Pi respectively, and still retains a fair voice naturalness and intelligibility compared to the teacher model. We publicly release Nix-TTS pretrained models and audio samples in English (https://github.com/rendchevi/nix-tts).
Abstract（参考訳）: 我々は,知識蒸留を適用した軽量なTTS(Text-to-Speech)モデルであるNix-TTSを提案する。 ttsモデルの蒸留は、ttsアーキテクチャの生成的かつ非連結な性質のために直感的に聞こえるかもしれないが、事前訓練されたttsモデルは、エンコーダおよびデコーダ構造に単純化され、前者はテキストを何らかの潜在表現に符号化し、後者は潜在データを音声データに復号する。我々は、各コンポーネントをエンドツーエンドで蒸留するフレームワークを考案する。 nix-ttsは5.23mのパラメータしか持たないエンドツーエンド(vocoder-free)で、教師モデルの82\%まで削減でき、intel-i7 cpuとraspberry piでそれぞれ3.26$\times$と8.36$\times$の推論スピードアップを達成している。 Nix-TTS事前訓練されたモデルとオーディオサンプルを英語で公開しています(https://github.com/rendchevi/nix-tts)。

関連論文リスト

Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens [31.575335190916995]
本稿では,音声を2つの補完トークンタイプに分解する単一ストリーム音声であるBiCodecを利用した新しいシステムであるSpark-TTSを紹介する。制御可能なTSの研究を容易にするために,包括的な属性アノテーションを備えた10000時間データセットであるVoxBoxを紹介した。
論文参考訳（メタデータ） (2025-03-03T16:23:10Z)
SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。 SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文参考訳（メタデータ） (2024-08-25T17:07:39Z)
DiTTo-TTS: Efficient and Scalable Zero-Shot Text-to-Speech with Diffusion Transformer [9.032701216955497]
市販の事前学習テキストと音声エンコーダを利用した効率よくスケーラブルな拡散変換器(DiT)を提案する。提案手法は, 音声表現の総長の予測により, テキスト・音声アライメントの課題に対処する。トレーニングデータセットとモデルサイズはそれぞれ82K時間と790Mパラメータにスケールします。
論文参考訳（メタデータ） (2024-06-17T11:25:57Z)
Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文参考訳（メタデータ） (2024-06-11T14:17:12Z)
EM-TTS: Efficiently Trained Low-Resource Mongolian Lightweight Text-to-Speech [4.91849983180793]
本稿では,深層畳み込みニューラルネットワークに基づくテキスト音声合成システムを提案する。私たちのモデルは、Text2SpectrumとSSRNの2つのステージで構成されています。実験の結果,合成音声の品質と自然性を確保しつつ,学習時間とパラメータを低減できることがわかった。
論文参考訳（メタデータ） (2024-03-13T01:27:57Z)
BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data [15.447206120523356]
BASE TTSは、これまでで最大のTSモデルであり、パブリックドメインの音声データ100K時間で訓練されている。 10K以上の時間と500M以上のパラメータで構築されたBASE TTSの変種が、テキストに複雑な文に自然な韻律を呈示し始めることを示す。
論文参考訳（メタデータ） (2024-02-12T22:21:30Z)
Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文参考訳（メタデータ） (2024-01-05T14:47:20Z)
Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。 Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文参考訳（メタデータ） (2023-06-06T08:54:49Z)
Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.55131711064935]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。 Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文参考訳（メタデータ） (2023-01-05T15:37:15Z)
ESPnet2-TTS: Extending the Edge of TTS Research [62.92178873052468]
ESPnet2-TTSは、E2E-TTS(E2E-TTS)ツールキットである。新機能としては、オンザフライフレキシブルプリプロセッシング、ニューラルボコーダとのジョイントトレーニング、フルバンドE2Eテキスト・トゥ・ウェーブフォームモデリングのような拡張を備えた最先端のTSモデルなどがある。
論文参考訳（メタデータ） (2021-10-15T03:27:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。