論文の概要: LibriTTS-P: A Corpus with Speaking Style and Speaker Identity Prompts for Text-to-Speech and Style Captioning
- arxiv url: http://arxiv.org/abs/2406.07969v1
- Date: Wed, 12 Jun 2024 07:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 17:55:44.482104
- Title: LibriTTS-P: A Corpus with Speaking Style and Speaker Identity Prompts for Text-to-Speech and Style Captioning
- Title(参考訳): LibriTTS-P:テキスト音声とスタイルキャプションのための話し方と話者識別プロンプト付きコーパス
- Authors: Masaya Kawamura, Ryuichi Yamamoto, Yuma Shirahata, Takuya Hasumi, Kentaro Tachibana,
- Abstract要約: 我々は、LibriTTS-Rに基づく新しいコーパスであるLibriTTS-Pを紹介し、発話スタイルの発話レベル記述(即ち、プロンプト)と話者特性の話者レベルプロンプトを含む。
スタイルキャプションタスクの結果から, LibriTTS-P を用いたモデルは, 従来のデータセットを用いたモデルよりも2.5倍正確な単語を生成することがわかった。
- 参考スコア(独自算出の注目度): 12.069474749489897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce LibriTTS-P, a new corpus based on LibriTTS-R that includes utterance-level descriptions (i.e., prompts) of speaking style and speaker-level prompts of speaker characteristics. We employ a hybrid approach to construct prompt annotations: (1) manual annotations that capture human perceptions of speaker characteristics and (2) synthetic annotations on speaking style. Compared to existing English prompt datasets, our corpus provides more diverse prompt annotations for all speakers of LibriTTS-R. Experimental results for prompt-based controllable TTS demonstrate that the TTS model trained with LibriTTS-P achieves higher naturalness than the model using the conventional dataset. Furthermore, the results for style captioning tasks show that the model utilizing LibriTTS-P generates 2.5 times more accurate words than the model using a conventional dataset. Our corpus, LibriTTS-P, is available at https://github.com/line/LibriTTS-P.
- Abstract(参考訳): 我々は、LibriTTS-Rに基づく新しいコーパスであるLibriTTS-Pを紹介し、発話スタイルの発話レベル記述(即ち、プロンプト)と話者特性の話者レベルプロンプトを含む。
提案手法は,(1)話者特性の人間の知覚を捉える手動アノテーション,(2)話し方に関する合成アノテーションである。
既存の英語のプロンプトデータセットと比較して、私たちのコーパスはLibriTTS-Rの全話者に対してより多様なプロンプトアノテーションを提供します。
プロンプトベース制御可能なTSモデルの実験結果から、LibriTTS-Pで訓練されたTSモデルは、従来のデータセットを用いたモデルよりも自然性が高いことを示した。
さらに, スタイルキャプションタスクの結果から, LibriTTS-P を用いたモデルは, 従来のデータセットを用いたモデルよりも2.5倍正確な単語を生成することがわかった。
当社の企業である LibriTTS-P は https://github.com/line/LibriTTS-P で利用可能です。
関連論文リスト
- Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する
本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。
また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:17:12Z) - Expressive TTS Driven by Natural Language Prompts Using Few Human
Annotations [12.891344121936902]
Expressive Text-to-Speech (TTS) は、人間の声調、気分、さらには芸術的特性で音声を合成することを目的としている。
TTSの最近の進歩は、自然言語のプロンプトを通じて、ユーザーが直接合成スタイルを制御できるようになる。
最小限のアノテーションを持つ制御可能な表現型TSモデルであるFreeStyleTTS(FS-TTS)を提案する。
論文 参考訳(メタデータ) (2023-11-02T14:20:37Z) - TextrolSpeech: A Text Style Control Speech Corpus With Codec Language
Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。
本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。
そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T09:06:32Z) - DSE-TTS: Dual Speaker Embedding for Cross-Lingual Text-to-Speech [30.110058338155675]
話者の音色を正確に保持することが難しいため,言語間テキスト合成 (CTTS) はまだ満足できない。
そこで本研究では,CTTS のための新しい2元話者埋め込み TTS (DSE-TTS) フレームワークを提案する。
両方の埋め込みを組み合わせることで、DSE-TTSは言語間合成において最先端のSANE-TTSよりも著しく優れる。
論文 参考訳(メタデータ) (2023-06-25T06:46:36Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus [3.1925030748447747]
本稿では,古典アラビア語テキスト・トゥ・スペーチ(ClArTTS)のための音声コーパスについて述べる。
音声は、LibriVoxオーディオブックから抽出され、処理され、セグメンテーションされ、手動で書き起こされ、注釈付けされる。
最後のClArTTSコーパスは、40100kHzでサンプリングされた1人の男性スピーカーから約12時間の音声を含む。
論文 参考訳(メタデータ) (2023-02-28T20:18:59Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Transfer Learning Framework for Low-Resource Text-to-Speech using a
Large-Scale Unlabeled Speech Corpus [10.158584616360669]
テキスト音声(TTS)モデルのトレーニングには,大規模テキストラベル付き音声コーパスが必要となる。
本稿では、事前学習に大量のラベルなし音声データセットを利用するTSの転送学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T11:26:56Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Referee: Towards reference-free cross-speaker style transfer with
low-quality data for expressive speech synthesis [39.730034713382736]
テキスト・トゥ・スピーチ (TTS) におけるクロス・スピーカー・スタイル・トランスファー (CSST) は、ターゲット話者の音声における合成音声への発話スタイルの転送を目的としている。
これは、低品質データをフル活用してテキストから話し方を学ぶ、表現型TSのための堅牢な参照不要なCSSTアプローチであるRefereeを提示する。
論文 参考訳(メタデータ) (2021-09-08T05:39:34Z) - Learning Speaker Embedding from Text-to-Speech [59.80309164404974]
我々は,エンドツーエンドのTacotron 2 TTSと話者埋め込みネットワークを,自己指導型で共同で訓練した。
本研究は,手書き文字とASR書き起こし文字のトレーニングについて検討した。
教師なしTS埋め込みは、LibriTTSデータセットのi-vectorに関して、EERを2.06%改善した。
論文 参考訳(メタデータ) (2020-10-21T18:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。