論文の概要: SC VALL-E: Style-Controllable Zero-Shot Text to Speech Synthesizer
- arxiv url: http://arxiv.org/abs/2307.10550v1
- Date: Thu, 20 Jul 2023 03:28:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 14:59:07.462922
- Title: SC VALL-E: Style-Controllable Zero-Shot Text to Speech Synthesizer
- Title(参考訳): SC VALL-E:音声合成のためのスタイル制御可能なゼロショットテキスト
- Authors: Daegyeom Kim, Seongho Hong, and Yong-Hoon Choi
- Abstract要約: 表現型音声合成モデルは、データセットに多様な話者、様々な感情、異なる話し方を加えたコーパスを追加することで訓練される。
本稿では,ニューラルネットワークモデル(VALL-E)に基づくスタイル制御(SC)VALL-Eモデルを提案する。
提案したSC VALL-Eは、テキストから入力を受け、音声をプロンプトし、制御可能な音声を生成するように設計されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Expressive speech synthesis models are trained by adding corpora with diverse
speakers, various emotions, and different speaking styles to the dataset, in
order to control various characteristics of speech and generate the desired
voice. In this paper, we propose a style control (SC) VALL-E model based on the
neural codec language model (called VALL-E), which follows the structure of the
generative pretrained transformer 3 (GPT-3). The proposed SC VALL-E takes input
from text sentences and prompt audio and is designed to generate controllable
speech by not simply mimicking the characteristics of the prompt audio but by
controlling the attributes to produce diverse voices. We identify tokens in the
style embedding matrix of the newly designed style network that represent
attributes such as emotion, speaking rate, pitch, and voice intensity, and
design a model that can control these attributes. To evaluate the performance
of SC VALL-E, we conduct comparative experiments with three representative
expressive speech synthesis models: global style token (GST) Tacotron2,
variational autoencoder (VAE) Tacotron2, and original VALL-E. We measure word
error rate (WER), F0 voiced error (FVE), and F0 gross pitch error (F0GPE) as
evaluation metrics to assess the accuracy of generated sentences. For comparing
the quality of synthesized speech, we measure comparative mean option score
(CMOS) and similarity mean option score (SMOS). To evaluate the style control
ability of the generated speech, we observe the changes in F0 and
mel-spectrogram by modifying the trained tokens. When using prompt audio that
is not present in the training data, SC VALL-E generates a variety of
expressive sounds and demonstrates competitive performance compared to the
existing models. Our implementation, pretrained models, and audio samples are
located on GitHub.
- Abstract(参考訳): 音声のさまざまな特性を制御し、所望の声を生成するために、さまざまな話者、さまざまな感情、異なる話し方を備えたコーパスをデータセットに追加し、表現型音声合成モデルを訓練する。
本稿では,ニューラルコーデック言語モデル(VALL-E)に基づくスタイル制御(SC)VALL-Eモデルを提案する。
提案したSC VALL-Eは、テキストから入力を受け、音声をプロンプトし、プロンプト音声の特徴を単に模倣するのではなく、属性を制御して多様な音声を生成することによって制御可能な音声を生成するように設計されている。
感情,発話率,ピッチ,音声強度などの属性を表現する新たに設計されたスタイルネットワークのスタイル埋め込みマトリックス内のトークンを識別し,これらの属性を制御可能なモデルを設計する。
SC VALL-Eの性能を評価するために,グローバルスタイルトークン(GST)Tacotron2,可変オートエンコーダ(VAE)Tacotron2,オリジナルVALL-Eの3つの代表的な表現型音声合成モデルを用いて比較実験を行った。
単語誤り率(wer)、f0音声誤り(fve)、f0グロスピッチ誤差(f0gpe)を評価指標として測定し、生成文の精度を評価する。
合成音声の品質を比較するために,比較平均オプションスコア(cmos)と類似度平均オプションスコア(smos)を測定した。
生成した音声のスタイル制御能力を評価するために,F0 と mel-spectrogram の変化を学習トークンの修正によって観察する。
トレーニングデータに存在しないプロンプトオーディオを使用する場合、SC VALL-Eは様々な表現音を生成し、既存のモデルと比較して競合性能を示す。
実装、事前トレーニングされたモデル、オーディオサンプルはgithubにあります。
関連論文リスト
- Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models [13.420522975106536]
Takin AudioLLMは、主にTakin TTS、Takin VC、Takin Morphingを含む一連の技術とモデルである。
これらのモデルはゼロショット音声生成が可能であり、実際の人間の音声とほとんど区別できない高品質な音声を生成する。
論文 参考訳(メタデータ) (2024-09-18T17:03:12Z) - Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Natural language guidance of high-fidelity text-to-speech with synthetic
annotations [13.642358232817342]
本稿では,話者識別,スタイル,記録条件の様々な側面をラベル付けするスケーラブルな手法を提案する。
次に、この手法を45k時間データセットに適用し、音声言語モデルを訓練する。
その結果, アクセント, 韻律スタイル, チャネル条件, 音響条件の多岐にわたる高忠実度音声生成が得られた。
論文 参考訳(メタデータ) (2024-02-02T21:29:34Z) - TextrolSpeech: A Text Style Control Speech Corpus With Codec Language
Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。
本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。
そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T09:06:32Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Unsupervised TTS Acoustic Modeling for TTS with Conditional Disentangled Sequential VAE [36.50265124324876]
本稿では,テキストと音声のペアを必要としない,教師なしの音声合成モデルであるUTTSを提案する。
このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。
実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
論文 参考訳(メタデータ) (2022-06-06T11:51:22Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。