論文の概要: TextrolSpeech: A Text Style Control Speech Corpus With Codec Language
Text-to-Speech Models
- arxiv url: http://arxiv.org/abs/2308.14430v1
- Date: Mon, 28 Aug 2023 09:06:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 14:41:56.862591
- Title: TextrolSpeech: A Text Style Control Speech Corpus With Codec Language
Text-to-Speech Models
- Title(参考訳): TextrolSpeech:コーデック言語テキスト音声モデルを用いたテキストスタイル制御音声コーパス
- Authors: Shengpeng Ji, Jialong Zuo, Minghui Fang, Ziyue Jiang, Feiyang Chen,
Xinyu Duan, Baoxing Huai, Zhou Zhao
- Abstract要約: リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。
本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。
そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 51.529485094900934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been a growing interest in the field of controllable
Text-to-Speech (TTS). While previous studies have relied on users providing
specific style factor values based on acoustic knowledge or selecting reference
speeches that meet certain requirements, generating speech solely from natural
text prompts has emerged as a new challenge for researchers. This challenge
arises due to the scarcity of high-quality speech datasets with natural text
style prompt and the absence of advanced text-controllable TTS models. In light
of this, 1) we propose TextrolSpeech, which is the first large-scale speech
emotion dataset annotated with rich text attributes. The dataset comprises
236,220 pairs of style prompt in natural text descriptions with five style
factors and corresponding speech samples. Through iterative experimentation, we
introduce a multi-stage prompt programming approach that effectively utilizes
the GPT model for generating natural style descriptions in large volumes. 2)
Furthermore, to address the need for generating audio with greater style
diversity, we propose an efficient architecture called Salle. This architecture
treats text controllable TTS as a language model task, utilizing audio codec
codes as an intermediate representation to replace the conventional
mel-spectrogram. Finally, we successfully demonstrate the ability of the
proposed model by showing a comparable performance in the controllable TTS
task. Audio samples are available at https://sall-e.github.io/
- Abstract(参考訳): 近年,tts (controllable text-to-speech) の分野への関心が高まっている。
従来の研究は、音響知識に基づく特定のスタイルファクターを提供するユーザや、特定の要件を満たす参照音声を選択するユーザに依存してきたが、自然文のプロンプトからのみ音声を生成することが、研究者にとって新たな課題となっている。
この課題は、自然テキストスタイルプロンプトによる高品質な音声データセットの不足と、高度なテキスト制御可能なttsモデルがないことに起因する。
これに照らして。
1) リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。
データセットは、自然文記述における236,220組のスタイルプロンプトと、5つのスタイル要素と対応する音声サンプルからなる。
本稿では,多段階のプロンプトプログラミング手法を提案し,gptモデルを用いて大規模自然記述を生成する。
2)より多様なスタイルでオーディオを生成する必要性に対応するため,salleと呼ばれる効率的なアーキテクチャを提案する。
このアーキテクチャは、テキスト制御可能なTSを言語モデルタスクとして扱い、音声コーデックコードを中間表現として利用して従来のメルスペクトルを置き換える。
最後に,制御可能なttsタスクで同等の性能を示すことで,提案モデルの能力の実証に成功した。
オーディオサンプルはhttps://sall-e.github.io/で入手できる。
関連論文リスト
- ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec [50.273832905535485]
話者の声を完全に模倣し,任意の発話スタイルの制御と調整を可能にするTTSシステムであるControlSpeechを提案する。
以前のゼロショットTSモデルとコントロール可能なTSモデルは、さらなる制御と調整機能なしでスピーカーの声を模倣することしかできず、スピーカー固有の音声生成とは無関係であった。
論文 参考訳(メタデータ) (2024-06-03T11:15:16Z) - BASE TTS: Lessons from building a billion-parameter Text-to-Speech model
on 100K hours of data [15.447206120523356]
BASE TTSは、これまでで最大のTSモデルであり、パブリックドメインの音声データ100K時間で訓練されている。
10K以上の時間と500M以上のパラメータで構築されたBASE TTSの変種が、テキストに複雑な文に自然な韻律を呈示し始めることを示す。
論文 参考訳(メタデータ) (2024-02-12T22:21:30Z) - Natural language guidance of high-fidelity text-to-speech with synthetic
annotations [13.642358232817342]
本稿では,話者識別,スタイル,記録条件の様々な側面をラベル付けするスケーラブルな手法を提案する。
次に、この手法を45k時間データセットに適用し、音声言語モデルを訓練する。
その結果, アクセント, 韻律スタイル, チャネル条件, 音響条件の多岐にわたる高忠実度音声生成が得られた。
論文 参考訳(メタデータ) (2024-02-02T21:29:34Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - PromptTTS: Controllable Text-to-Speech with Text Descriptions [32.647362978555485]
文体と内容の両方を入力としてプロンプトを取り、対応する音声を合成するテキスト音声合成システム(TTS)を開発した。
PromptTTSはスタイルエンコーダとコンテンツエンコーダで構成され、プロンプトから対応する表現を抽出する。
実験により, PromptTTSは高精度なスタイル制御と高音質の音声を生成可能であることが示された。
論文 参考訳(メタデータ) (2022-11-22T10:58:38Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。