論文の概要: ESPnet2-TTS: Extending the Edge of TTS Research
- arxiv url: http://arxiv.org/abs/2110.07840v1
- Date: Fri, 15 Oct 2021 03:27:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 14:42:58.637558
- Title: ESPnet2-TTS: Extending the Edge of TTS Research
- Title(参考訳): espnet2-tts: tts研究の最先端
- Authors: Tomoki Hayashi and Ryuichi Yamamoto and Takenori Yoshimura and Peter
Wu and Jiatong Shi and Takaaki Saeki and Yooncheol Ju and Yusuke Yasuda and
Shinnosuke Takamichi and Shinji Watanabe
- Abstract要約: ESPnet2-TTSは、E2E-TTS(E2E-TTS)ツールキットである。
新機能としては、オンザフライフレキシブルプリプロセッシング、ニューラルボコーダとのジョイントトレーニング、フルバンドE2Eテキスト・トゥ・ウェーブフォームモデリングのような拡張を備えた最先端のTSモデルなどがある。
- 参考スコア(独自算出の注目度): 62.92178873052468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes ESPnet2-TTS, an end-to-end text-to-speech (E2E-TTS)
toolkit. ESPnet2-TTS extends our earlier version, ESPnet-TTS, by adding many
new features, including: on-the-fly flexible pre-processing, joint training
with neural vocoders, and state-of-the-art TTS models with extensions like
full-band E2E text-to-waveform modeling, which simplify the training pipeline
and further enhance TTS performance. The unified design of our recipes enables
users to quickly reproduce state-of-the-art E2E-TTS results. We also provide
many pre-trained models in a unified Python interface for inference, offering a
quick means for users to generate baseline samples and build demos.
Experimental evaluations with English and Japanese corpora demonstrate that our
provided models synthesize utterances comparable to ground-truth ones,
achieving state-of-the-art TTS performance. The toolkit is available online at
https://github.com/espnet/espnet.
- Abstract(参考訳): 本稿では,E2E-TTSツールキットであるESPnet2-TTSについて述べる。
ESPnet2-TTSは、オンザフライフレキシブルプリプロセッシング、ニューラルボコーダとのジョイントトレーニング、フルバンドE2Eテキスト・トゥ・ウェーブフォームモデリングのような拡張を備えた最先端のTSモデルなど、トレーニングパイプラインを簡素化し、TSパフォーマンスをさらに向上する多くの新機能を追加することで、以前のバージョンであるESPnet-TTSを拡張しました。
レシピの統一設計により、ユーザは最先端のE2E-TTS結果を迅速に再現できる。
私たちはまた、推論のための統一pythonインターフェイスで多くの事前学習されたモデルを提供し、ユーザーがベースラインのサンプルを生成し、デモを構築するための簡単な手段を提供します。
英語と日本語のコーパスを用いた実験により,提案したモデルが音声の合成を行い,最先端のTTS性能を実現することを示した。
このツールキットはhttps://github.com/espnet/espnetで利用可能である。
関連論文リスト
- Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する
本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。
また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:17:12Z) - EM-TTS: Efficiently Trained Low-Resource Mongolian Lightweight Text-to-Speech [4.91849983180793]
本稿では,深層畳み込みニューラルネットワークに基づくテキスト音声合成システムを提案する。
私たちのモデルは、Text2SpectrumとSSRNの2つのステージで構成されています。
実験の結果,合成音声の品質と自然性を確保しつつ,学習時間とパラメータを低減できることがわかった。
論文 参考訳(メタデータ) (2024-03-13T01:27:57Z) - Enhancing Speech-to-Speech Translation with Multiple TTS Targets [62.18395387305803]
直接S2STモデルに対する合成対象音声の変更の効果を解析する。
異なるTSシステムから複数のターゲットを持つS2STシステムを協調的に最適化するマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T14:33:33Z) - ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit [61.52122386938913]
ESPnet-ST-v2はオープンソースのESPnet-STツールキットを改良したものである。
本稿では,ESPnet-ST-v2の裏側における全体的な設計,各タスクのサンプルモデル,パフォーマンスベンチマークについて述べる。
論文 参考訳(メタデータ) (2023-04-10T14:05:22Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Nix-TTS: An Incredibly Lightweight End-to-End Text-to-Speech Model via
Non End-to-End Distillation [4.995698126365142]
我々は,軽量なニューラルTS(Text-to-Speech)モデルであるNix-TTSを提案する。
我々は、知識蒸留を、強力ながら大規模なTTS教師モデルに適用する。
Nix-TTSはエンド・ツー・エンド(ヴォコーダフリー)で、5.23Mのパラメータしか持たない。
論文 参考訳(メタデータ) (2022-03-29T15:04:26Z) - On the Interplay Between Sparsity, Naturalness, Intelligibility, and
Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。
以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-10-04T02:03:28Z) - Unified Mandarin TTS Front-end Based on Distilled BERT Model [5.103126953298633]
TTSフロントエンドにおける2つの重要なタスクに対処するために,プレトレーニング言語モデル(PLM)に基づくモデルを提案する。
トレーニング済みの中国語BERTをテキストエンコーダとして使用し、マルチタスク学習技術を用いて2つのTSフロントエンドタスクに適応する。
TTSフロントエンドモジュール全体を軽量で統一された方法で実行することができ、モバイルデバイスへの展開により友好的です。
論文 参考訳(メタデータ) (2020-12-31T02:34:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。