論文の概要: PromptTTS 2: Describing and Generating Voices with Text Prompt
- arxiv url: http://arxiv.org/abs/2309.02285v1
- Date: Tue, 5 Sep 2023 14:45:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 14:13:27.446080
- Title: PromptTTS 2: Describing and Generating Voices with Text Prompt
- Title(参考訳): PromptTTS 2: テキストプロンプトによる音声の記述と生成
- Authors: Yichong Leng, Zhifang Guo, Kai Shen, Xu Tan, Zeqian Ju, Yanqing Liu,
Yufei Liu, Dongchao Yang, Leying Zhang, Kaitao Song, Lei He, Xiang-Yang Li,
Sheng Zhao, Tao Qin, Jiang Bian
- Abstract要約: テキストプロンプトに基づくTTSアプローチは,1)音声の多様性に関する詳細をテキストプロンプトに記述することができない1対多の問題という2つの課題に直面している。
本稿では,テキストプロンプトで捉えない音声の可変性情報を提供するために,変分ネットワークを用いてこれらの課題に対処するPromptTTS 2を提案する。
プロンプト生成パイプラインでは、音声理解モデルを用いてテキストプロンプトを生成し、音声属性を音声認識し、大きな言語モデルでテキストプロンプトを定式化する。
- 参考スコア(独自算出の注目度): 102.93668747303975
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speech conveys more information than just text, as the same word can be
uttered in various voices to convey diverse information. Compared to
traditional text-to-speech (TTS) methods relying on speech prompts (reference
speech) for voice variability, using text prompts (descriptions) is more
user-friendly since speech prompts can be hard to find or may not exist at all.
TTS approaches based on the text prompt face two challenges: 1) the one-to-many
problem, where not all details about voice variability can be described in the
text prompt, and 2) the limited availability of text prompt datasets, where
vendors and large cost of data labeling are required to write text prompt for
speech. In this work, we introduce PromptTTS 2 to address these challenges with
a variation network to provide variability information of voice not captured by
text prompts, and a prompt generation pipeline to utilize the large language
models (LLM) to compose high quality text prompts. Specifically, the variation
network predicts the representation extracted from the reference speech (which
contains full information about voice) based on the text prompt representation.
For the prompt generation pipeline, it generates text prompts for speech with a
speech understanding model to recognize voice attributes (e.g., gender, speed)
from speech and a large language model to formulate text prompt based on the
recognition results. Experiments on a large-scale (44K hours) speech dataset
demonstrate that compared to the previous works, PromptTTS 2 generates voices
more consistent with text prompts and supports the sampling of diverse voice
variability, thereby offering users more choices on voice generation.
Additionally, the prompt generation pipeline produces high-quality prompts,
eliminating the large labeling cost. The demo page of PromptTTS 2 is available
online\footnote{https://speechresearch.github.io/prompttts2}.
- Abstract(参考訳): 音声は単にテキスト以上の情報を伝達し、同じ単語を様々な声で発声して多様な情報を伝えることができる。
音声の可変性のために音声プロンプト(参照音声)に依存する従来のtts(text-to-speech)メソッドと比較して、テキストプロンプト(記述)の使用は、音声プロンプトを見つけるのが困難か全く存在しないか、ユーザフレンドリである。
テキストプロンプトに基づくTSアプローチは2つの課題に直面している。
1)テキストプロンプトに音声の変動性に関するすべての詳細を記述できない一対一の問題がある。
2) テキストプロンプトデータセットが限られており、ベンダーと大量のデータラベリングが音声のテキストプロンプトを書くために必要となる。
本稿では,テキストプロンプトでキャプチャされていない音声の可変性情報を提供するために,これらの課題に対処するPromptTTS 2と,高品質なテキストプロンプトを構成するために大規模言語モデル(LLM)を利用するプロンプト生成パイプラインを導入する。
具体的には、テキストプロンプト表現に基づいて、参照音声(音声に関する全情報を含む)から抽出された表現を予測する。
このプロンプト生成パイプラインでは、音声理解モデルを用いて音声のテキストプロンプトを生成し、音声から音声属性(例えば、性別、速度)を認識し、大言語モデルを用いて認識結果に基づいてテキストプロンプトを定式化する。
大規模(44K時間)の音声データセットの実験では、PromptTTS 2は以前の研究と比較すると、テキストプロンプトとより整合性のある音声を生成し、多様な音声のバラツキのサンプリングをサポートする。
さらに、プロンプト生成パイプラインは高品質なプロンプトを生成し、大きなラベリングコストを削減します。
PromptTTS 2のデモページはオンラインで公開されている。
関連論文リスト
- Voice Attribute Editing with Text Prompt [48.48628304530097]
本稿では,テキストプロンプトを用いた音声属性編集という新しい課題を紹介する。
目標は、テキストプロンプトに記述された動作に応じて、音声属性を相対的に修正することである。
この課題を解決するために,エンドツーエンド生成モデルであるVoxEditorを提案する。
論文 参考訳(メタデータ) (2024-04-13T00:07:40Z) - On The Open Prompt Challenge In Conditional Audio Generation [25.178010153697976]
テキスト・トゥ・オーディオ・ジェネレーション(TTA)は、テキスト記述から音声を生成し、ペアのオーディオサンプルと手書きのテキストから学習する。
我々は、TTAモデルをブラックボックスとして扱い、2つの重要な洞察でユーザのプロンプト課題に対処する。
音声改善のために,テキスト・オーディオアライメントをマージンランキング学習によるフィードバック信号として活用することを提案する。
論文 参考訳(メタデータ) (2023-11-01T23:33:25Z) - TextrolSpeech: A Text Style Control Speech Corpus With Codec Language
Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。
本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。
そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T09:06:32Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - PromptTTS: Controllable Text-to-Speech with Text Descriptions [32.647362978555485]
文体と内容の両方を入力としてプロンプトを取り、対応する音声を合成するテキスト音声合成システム(TTS)を開発した。
PromptTTSはスタイルエンコーダとコンテンツエンコーダで構成され、プロンプトから対応する表現を抽出する。
実験により, PromptTTSは高精度なスタイル制御と高音質の音声を生成可能であることが示された。
論文 参考訳(メタデータ) (2022-11-22T10:58:38Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。