論文の概要: LibriQuote: A Speech Dataset of Fictional Character Utterances for Expressive Zero-Shot Speech Synthesis
- arxiv url: http://arxiv.org/abs/2509.04072v1
- Date: Thu, 04 Sep 2025 10:05:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.125839
- Title: LibriQuote: A Speech Dataset of Fictional Character Utterances for Expressive Zero-Shot Speech Synthesis
- Title(参考訳): LibriQuote:表現型ゼロショット音声合成のための辞書文字の音声データセット
- Authors: Gaspard Michel, Elena V. Epure, Christophe Cerisara,
- Abstract要約: 本稿では,リードオーディオブックから派生した英文コーパスであるLibriQuoteデータセットを紹介する。
トレーニングデータセットは、読み上げ、非表現音声の12.7K時間と、主に文字引用から引き出された表現音声の5.3K時間を含む。
また、TSシステムのベンチマークを目的とした、7.5時間の挑戦的なテストセットも提供します。
- 参考スコア(独自算出の注目度): 9.933931058173014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-speech (TTS) systems have recently achieved more expressive and natural speech synthesis by scaling to large speech datasets. However, the proportion of expressive speech in such large-scale corpora is often unclear. Besides, existing expressive speech corpora are typically smaller in scale and primarily used for benchmarking TTS systems. In this paper, we introduce the LibriQuote dataset, an English corpus derived from read audiobooks, designed for both fine-tuning and benchmarking expressive zero-shot TTS system. The training dataset includes 12.7K hours of read, non-expressive speech and 5.3K hours of mostly expressive speech drawn from character quotations. Each utterance in the expressive subset is supplemented with the context in which it was written, along with pseudo-labels of speech verbs and adverbs used to describe the quotation (\textit{e.g. ``he whispered softly''}). Additionally, we provide a challenging 7.5 hour test set intended for benchmarking TTS systems: given a neutral reference speech as input, we evaluate system's ability to synthesize an expressive utterance while preserving reference timbre. We validate qualitatively the test set by showing that it covers a wide range of emotions compared to non-expressive speech, along with various accents. Extensive subjective and objective evaluations show that fine-tuning a baseline TTS system on LibriQuote significantly improves its synthesized speech intelligibility, and that recent systems fail to synthesize speech as expressive and natural as the ground-truth utterances. The dataset and evaluation code are freely available. Audio samples can be found at https://libriquote.github.io/.
- Abstract(参考訳): テキスト音声合成システム(TTS)は近年,大規模音声データセットへの拡張により,より表現力が高く自然な音声合成を実現している。
しかし、このような大規模コーパスにおける表現的発話の割合は、しばしば不明である。
さらに、既存の表現型音声コーパスは、通常規模が小さく、主にTSシステムのベンチマークに使用される。
本稿では,読み上げオーディオブックから派生した英語コーパスであるLibriQuoteデータセットについて述べる。
トレーニングデータセットは、読み上げ、非表現音声の12.7K時間と、主に文字引用から引き出された表現音声の5.3K時間を含む。
表現的部分集合のそれぞれの発話は、それが書かれた文脈と共に補足され、引用を記述するのに使用される言語動詞や副詞の擬似ラベル(\textit{e g ``he whispered softly'} )が添えられる。
さらに、TTSシステムのベンチマークを目的とした7.5時間テストセットを提供する。中性参照音声を入力として与え、参照音を保存しながら表現的発話を合成するシステムの能力を評価する。
本研究は, 様々なアクセントとともに, 非表現音声と比較して, 幅広い感情をカバーしていることを示すことで, 定性的に検証する。
広汎な主観的・客観的評価は,LibriQuote上でのベースラインTSシステムの微調整により音声の理解性が大幅に向上し,近年のシステムは音声を音声として表現的・自然な音声として合成することができないことを示している。
データセットと評価コードは無料で利用できる。
オーディオサンプルはhttps://libriquote.github.io/で見ることができる。
関連論文リスト
- EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus [3.1925030748447747]
本稿では,古典アラビア語テキスト・トゥ・スペーチ(ClArTTS)のための音声コーパスについて述べる。
音声は、LibriVoxオーディオブックから抽出され、処理され、セグメンテーションされ、手動で書き起こされ、注釈付けされる。
最後のClArTTSコーパスは、40100kHzでサンプリングされた1人の男性スピーカーから約12時間の音声を含む。
論文 参考訳(メタデータ) (2023-02-28T20:18:59Z) - Time out of Mind: Generating Rate of Speech conditioned on emotion and
speaker [0.0]
感情によって条件付けされたGANをトレーニングし、与えられた入力テキストに価値ある長さを生成する。
これらの単語長は相対的中性音声であり、テキスト音声システムに提供され、より表現力のある音声を生成する。
我々は,中性音声に対する客観的尺度の精度向上と,アウト・オブ・ボックスモデルと比較した場合の幸福音声に対する時間アライメントの改善を実現した。
論文 参考訳(メタデータ) (2023-01-29T02:58:01Z) - A Textless Metric for Speech-to-Speech Comparison [20.658229254191266]
テキストの書き起こしに頼らずに音声の発話を比較するための,新しい,シンプルな手法を提案する。
我々は,HuBERTのような最先端の音声2ユニットエンコーダを用いて,音声の発話を離散音響単位に変換する。
論文 参考訳(メタデータ) (2022-10-21T09:28:54Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Unsupervised Text-to-Speech Synthesis by Unsupervised Automatic Speech
Recognition [60.84668086976436]
教師なし音声合成システム(TTS)は、言語中の任意の文章に対応する音声波形を生成することを学習する。
本稿では、教師なし自動音声認識(ASR)の最近の進歩を活用して、教師なしTSシステムを提案する。
教師なしシステムでは、7つの言語で約10~20時間の音声で教師付きシステムに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2022-03-29T17:57:53Z) - Transfer Learning Framework for Low-Resource Text-to-Speech using a
Large-Scale Unlabeled Speech Corpus [10.158584616360669]
テキスト音声(TTS)モデルのトレーニングには,大規模テキストラベル付き音声コーパスが必要となる。
本稿では、事前学習に大量のラベルなし音声データセットを利用するTSの転送学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T11:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。