論文の概要: RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2404.03204v2
- Date: Sat, 6 Apr 2024 04:35:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 11:18:23.674531
- Title: RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis
- Title(参考訳): RALL-E: テキスト音声合成のためのChain-of-Thought Promptingを用いたロバストコーデック言語モデリング
- Authors: Detai Xin, Xu Tan, Kai Shen, Zeqian Ju, Dongchao Yang, Yuancheng Wang, Shinnosuke Takamichi, Hiroshi Saruwatari, Shujie Liu, Jinyu Li, Sheng Zhao,
- Abstract要約: RALL-Eは、音声合成のための堅牢な言語モデリング手法である。
RALL-Eは、ゼロショットTSのWERを6.3%ドルから2.8%ドル、1.0%ドルに改善した。
- 参考スコア(独自算出の注目度): 84.57932472551889
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present RALL-E, a robust language modeling method for text-to-speech (TTS) synthesis. While previous work based on large language models (LLMs) shows impressive performance on zero-shot TTS, such methods often suffer from poor robustness, such as unstable prosody (weird pitch and rhythm/duration) and a high word error rate (WER), due to the autoregressive prediction style of language models. The core idea behind RALL-E is chain-of-thought (CoT) prompting, which decomposes the task into simpler steps to enhance the robustness of LLM-based TTS. To accomplish this idea, RALL-E first predicts prosody features (pitch and duration) of the input text and uses them as intermediate conditions to predict speech tokens in a CoT style. Second, RALL-E utilizes the predicted duration prompt to guide the computing of self-attention weights in Transformer to enforce the model to focus on the corresponding phonemes and prosody features when predicting speech tokens. Results of comprehensive objective and subjective evaluations demonstrate that, compared to a powerful baseline method VALL-E, RALL-E significantly improves the WER of zero-shot TTS from $6.3\%$ (without reranking) and $2.1\%$ (with reranking) to $2.8\%$ and $1.0\%$, respectively. Furthermore, we demonstrate that RALL-E correctly synthesizes sentences that are hard for VALL-E and reduces the error rate from $68\%$ to $4\%$.
- Abstract(参考訳): 本稿では,TTS合成のための頑健な言語モデリング手法であるRALL-Eを提案する。
大規模言語モデル(LLM)に基づく以前の研究は、ゼロショットTSにおいて印象的な性能を示したが、このような手法は、不安定な韻律(ピッチとリズム/デュレーション)や高い単語誤り率(WER)といった、言語モデルの自己回帰予測スタイルによって、しばしば弱い頑健さに悩まされる。
RALL-Eの背後にある中核的なアイデアはチェーン・オブ・シークレット(CoT)のプロンプトであり、LCMベースのTSの堅牢性を高めるため、タスクを単純なステップに分解する。
このアイデアを達成するために、RALL-Eはまず入力テキストの韻律的特徴(ピッチと持続時間)を予測し、それを中間条件としてCoTスタイルの音声トークンを予測する。
第二に、RALL-Eは予測時間プロンプトを用いてトランスフォーマーの自己注意重みの計算を誘導し、音声トークンを予測する際に対応する音素や韻律の特徴にフォーカスするようにモデルを強制する。
総合的な客観的評価と主観評価の結果、強力なベースライン法であるVALL-Eと比較して、RALL-E はゼロショット TTS の WER を 6.3 %$ (再ランクなし) と 2.1 %$ (再ランクなし) から 2.8 %$ (1.0 %$) に大幅に改善している。
さらに, VALL-E に難解な文を正しく合成し, 誤り率を 68 % から 4 % に下げることを示した。
関連論文リスト
- $\textit{LinkPrompt}$: Natural and Universal Adversarial Attacks on Prompt-based Language Models [13.416624729344477]
Promptベースの学習は、トレーニング済み言語モデル(PLM)を下流タスクに適応させる新しい言語モデルトレーニングパラダイムである。
本研究は, 対向トリガを生成する逆攻撃アルゴリズムである $textitLinkPrompt$ を開発する。
論文 参考訳(メタデータ) (2024-03-25T05:27:35Z) - BASE TTS: Lessons from building a billion-parameter Text-to-Speech model
on 100K hours of data [15.447206120523356]
BASE TTSは、これまでで最大のTSモデルであり、パブリックドメインの音声データ100K時間で訓練されている。
10K以上の時間と500M以上のパラメータで構築されたBASE TTSの変種が、テキストに複雑な文に自然な韻律を呈示し始めることを示す。
論文 参考訳(メタデータ) (2024-02-12T22:21:30Z) - TextrolSpeech: A Text Style Control Speech Corpus With Codec Language
Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。
本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。
そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T09:06:32Z) - Controllable Emphasis with zero data for text-to-speech [57.12383531339368]
強調音声を簡易かつ効果的に処理する方法は、強調単語の予測持続時間を増加させることである。
これは自然度を7.3%向上させるスペクトログラム修正手法よりもはるかに優れていることを示し、基準女性のen-US音声に対して、文章中の強調された単語の正しさを40%精度で識別する。
論文 参考訳(メタデータ) (2023-07-13T21:06:23Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Deep Continuous Prompt for Contrastive Learning of Sentence Embeddings [8.70715711885114]
本稿では,言語モデル全体を凍結し,プレフィックスの深い連続的なプロンプトのみを最適化する新しい手法を提案する。
元の言語モデルの約0.1%のパラメータをチューニングするだけでなく、手作りのプロンプトを検索する面倒な計算を避ける。
提案したDCPCSEは最先端のSimCSEよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-03-14T06:07:44Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - STYLER: Style Modeling with Rapidity and Robustness via
SpeechDecomposition for Expressive and Controllable Neural Text to Speech [2.622482339911829]
STYLERは並列化アーキテクチャを持つ新しい表現型テキスト音声合成モデルである。
提案手法は, 雑音を伝達することなく, ドメイン逆学習と残余復号化を併用した音声からのノイズモデリング手法である。
論文 参考訳(メタデータ) (2021-03-17T07:11:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。