論文の概要: RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2404.03204v3
- Date: Sun, 19 May 2024 21:34:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 22:41:01.988601
- Title: RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis
- Title(参考訳): RALL-E: テキスト音声合成のためのChain-of-Thought Promptingを用いたロバストコーデック言語モデリング
- Authors: Detai Xin, Xu Tan, Kai Shen, Zeqian Ju, Dongchao Yang, Yuancheng Wang, Shinnosuke Takamichi, Hiroshi Saruwatari, Shujie Liu, Jinyu Li, Sheng Zhao,
- Abstract要約: RALL-Eは、音声合成のための堅牢な言語モデリング手法である。
RALL-Eは、ゼロショットTSのWERを、それぞれ5.6%$(リランクなし)から2.5%$と1.0%$に改善した。
- 参考スコア(独自算出の注目度): 84.57932472551889
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present RALL-E, a robust language modeling method for text-to-speech (TTS) synthesis. While previous work based on large language models (LLMs) shows impressive performance on zero-shot TTS, such methods often suffer from poor robustness, such as unstable prosody (weird pitch and rhythm/duration) and a high word error rate (WER), due to the autoregressive prediction style of language models. The core idea behind RALL-E is chain-of-thought (CoT) prompting, which decomposes the task into simpler steps to enhance the robustness of LLM-based TTS. To accomplish this idea, RALL-E first predicts prosody features (pitch and duration) of the input text and uses them as intermediate conditions to predict speech tokens in a CoT style. Second, RALL-E utilizes the predicted duration prompt to guide the computing of self-attention weights in Transformer to enforce the model to focus on the corresponding phonemes and prosody features when predicting speech tokens. Results of comprehensive objective and subjective evaluations demonstrate that, compared to a powerful baseline method VALL-E, RALL-E significantly improves the WER of zero-shot TTS from $5.6\%$ (without reranking) and $1.7\%$ (with reranking) to $2.5\%$ and $1.0\%$, respectively. Furthermore, we demonstrate that RALL-E correctly synthesizes sentences that are hard for VALL-E and reduces the error rate from $68\%$ to $4\%$.
- Abstract(参考訳): 本稿では,TTS合成のための頑健な言語モデリング手法であるRALL-Eを提案する。
大規模言語モデル(LLM)に基づく以前の研究は、ゼロショットTSにおいて印象的な性能を示したが、このような手法は、不安定な韻律(ピッチとリズム/デュレーション)や高い単語誤り率(WER)といった、言語モデルの自己回帰予測スタイルによって、しばしば弱い頑健さに悩まされる。
RALL-Eの背後にある中核的なアイデアはチェーン・オブ・シークレット(CoT)のプロンプトであり、LCMベースのTSの堅牢性を高めるため、タスクを単純なステップに分解する。
このアイデアを達成するために、RALL-Eはまず入力テキストの韻律的特徴(ピッチと持続時間)を予測し、それを中間条件としてCoTスタイルの音声トークンを予測する。
第二に、RALL-Eは予測時間プロンプトを用いてトランスフォーマーの自己注意重みの計算を誘導し、音声トークンを予測する際に対応する音素や韻律の特徴にフォーカスするようにモデルを強制する。
総合的な客観的評価と主観評価の結果、強力なベースライン法であるVALL-Eと比較して、RALL-E はゼロショット TTS の WER を 5.6 %$ (再ランクなし) と $1.7 %$ (再ランクなし) から 2.5 %$ と $1.0 %$ に大幅に改善している。
さらに, VALL-E に難解な文を正しく合成し, 誤り率を 68 % から 4 % に下げることを示した。
関連論文リスト
- SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers [119.89284877061779]
本稿では,ゼロショット音声合成(TTS)の節目となる,ニューラルネットワークモデルの最新の進歩であるVALL-E 2を紹介する。
VALL-E 2は、その複雑さや反復句によって伝統的に困難な文であっても、高品質な音声を一貫して合成する。
この研究の利点は、失語症のある人や筋萎縮性側索硬化症を持つ人のためのスピーチを生成するなど、貴重な努力に寄与する可能性がある。
論文 参考訳(メタデータ) (2024-06-08T06:31:03Z) - BASE TTS: Lessons from building a billion-parameter Text-to-Speech model
on 100K hours of data [15.447206120523356]
BASE TTSは、これまでで最大のTSモデルであり、パブリックドメインの音声データ100K時間で訓練されている。
10K以上の時間と500M以上のパラメータで構築されたBASE TTSの変種が、テキストに複雑な文に自然な韻律を呈示し始めることを示す。
論文 参考訳(メタデータ) (2024-02-12T22:21:30Z) - Controllable Emphasis with zero data for text-to-speech [57.12383531339368]
強調音声を簡易かつ効果的に処理する方法は、強調単語の予測持続時間を増加させることである。
これは自然度を7.3%向上させるスペクトログラム修正手法よりもはるかに優れていることを示し、基準女性のen-US音声に対して、文章中の強調された単語の正しさを40%精度で識別する。
論文 参考訳(メタデータ) (2023-07-13T21:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。