論文の概要: PromptTTS: Controllable Text-to-Speech with Text Descriptions
- arxiv url: http://arxiv.org/abs/2211.12171v1
- Date: Tue, 22 Nov 2022 10:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 17:19:20.639826
- Title: PromptTTS: Controllable Text-to-Speech with Text Descriptions
- Title(参考訳): PromptTTS: テキスト記述による制御可能なテキスト音声合成
- Authors: Zhifang Guo, Yichong Leng, Yihan Wu, Sheng Zhao, Xu Tan
- Abstract要約: 文体と内容の両方を入力としてプロンプトを取り、対応する音声を合成するテキスト音声合成システム(TTS)を開発した。
PromptTTSはスタイルエンコーダとコンテンツエンコーダで構成され、プロンプトから対応する表現を抽出する。
実験により, PromptTTSは高精度なスタイル制御と高音質の音声を生成可能であることが示された。
- 参考スコア(独自算出の注目度): 32.647362978555485
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Using a text description as prompt to guide the generation of text or images
(e.g., GPT-3 or DALLE-2) has drawn wide attention recently. Beyond text and
image generation, in this work, we explore the possibility of utilizing text
descriptions to guide speech synthesis. Thus, we develop a text-to-speech (TTS)
system (dubbed as PromptTTS) that takes a prompt with both style and content
descriptions as input to synthesize the corresponding speech. Specifically,
PromptTTS consists of a style encoder and a content encoder to extract the
corresponding representations from the prompt, and a speech decoder to
synthesize speech according to the extracted style and content representations.
Compared with previous works in controllable TTS that require users to have
acoustic knowledge to understand style factors such as prosody and pitch,
PromptTTS is more user-friendly since text descriptions are a more natural way
to express speech style (e.g., ''A lady whispers to her friend slowly''). Given
that there is no TTS dataset with prompts, to benchmark the task of PromptTTS,
we construct and release a dataset containing prompts with style and content
information and the corresponding speech. Experiments show that PromptTTS can
generate speech with precise style control and high speech quality. Audio
samples and our dataset are publicly available.
- Abstract(参考訳): GPT-3 や DALLE-2 などのテキストや画像の生成を誘導するプロンプトとしてテキスト記述を使用することが近年注目されている。
本研究では,テキストや画像生成以外にも,テキスト記述を利用して音声合成をガイドする可能性を探る。
そこで我々は,スタイル記述とコンテンツ記述の両方を入力としてプロンプトを取り,対応する音声を合成するtts(text-to-speech)システムを開発した。
具体的には、プロンプトから対応する表現を抽出するスタイルエンコーダとコンテンツエンコーダと、抽出されたスタイルおよびコンテンツ表現に従って音声を合成する音声デコーダとからなる。
ユーザが韻律やピッチなどのスタイル要素を理解するために音響知識を必要とする従来の制御可能なTTSとは異なり、PromptTTSは、テキスト記述の方が音声スタイルを表現する自然な方法であるため、よりユーザフレンドリーである(例:「おばあちゃんが友達にゆっくりささやく」)。
PromptTTSのタスクをベンチマークするために、プロンプト付きTSデータセットがないことを考慮し、スタイルと内容情報と対応する音声を含むプロンプトを含むデータセットを構築し、リリースする。
実験により, PromptTTSは高精度なスタイル制御と高音質の音声を生成可能であることが示された。
オーディオサンプルとデータセットは公開されています。
関連論文リスト
- StoryTTS: A Highly Expressive Text-to-Speech Dataset with Rich Textual Expressiveness Annotations [12.891344121936902]
本稿では,高ETTSデータセットであるStoryTTSについて紹介する。
StoryTTSでは,言語学や修辞学などを通じて,5つの異なる次元を含む音声関連テキスト表現を分析・定義する。
得られたコーパスは、正確なテキスト書き起こしとリッチテキスト表現性アノテーションを備えた61時間連続かつ高韻律音声を含む。
論文 参考訳(メタデータ) (2024-04-23T11:41:35Z) - PromptTTS++: Controlling Speaker Identity in Prompt-Based Text-to-Speech
Using Natural Language Descriptions [21.15647416266187]
本稿では,自然言語記述を用いた話者識別制御が可能な音声合成システムPromptTTS++を提案する。
本稿では,話し方とほぼ独立に設計された音声特性を記述した話者プロンプトの概念を紹介する。
主観評価の結果,提案手法は話者プロンプトを使わずに話者特性を制御できることがわかった。
論文 参考訳(メタデータ) (2023-09-15T04:11:37Z) - PromptTTS 2: Describing and Generating Voices with Text Prompt [102.93668747303975]
音声はテキストよりも多くの情報を伝達し、同じ単語を様々な声で発声して多様な情報を伝えることができる。
従来のTTS(text-to-speech)手法は、音声の可変性に対する音声プロンプト(参照音声)に依存している。
本稿では,テキストプロンプトで捉えない音声の可変性情報を提供するために,変分ネットワークを用いてこれらの課題に対処するPromptTTS 2を提案する。
論文 参考訳(メタデータ) (2023-09-05T14:45:27Z) - TextrolSpeech: A Text Style Control Speech Corpus With Codec Language
Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。
本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。
そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T09:06:32Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Contextual Expressive Text-to-Speech [25.050361896378533]
我々は新しいタスク設定 Contextual Text-to-speech (CTTS) を導入する。
CTTSの主な考え方は、人がどのように話すかは、通常、コンテキストをテキストとして表現できる特定のコンテキストに依存する、というものである。
合成データセットを構築し、与えられた文脈に基づいて高品質な表現音声を生成するための効果的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-11-26T12:06:21Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style [111.89762723159677]
AdaSpeech 3 は,順応性のある TTS システムである。
AdaSpeech 3は自然なFPとリズムを自発的なスタイルで合成し、従来の適応TSシステムよりもずっと優れたMOSとSMOSスコアを達成する。
論文 参考訳(メタデータ) (2021-07-06T10:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。