論文の概要: Scaling Rich Style-Prompted Text-to-Speech Datasets
- arxiv url: http://arxiv.org/abs/2503.04713v1
- Date: Thu, 06 Mar 2025 18:57:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:01:45.628376
- Title: Scaling Rich Style-Prompted Text-to-Speech Datasets
- Title(参考訳): リッチスタイルプロンプトテキスト音声データセットのスケーリング
- Authors: Anuj Diwan, Zhisheng Zheng, David Harwath, Eunsol Choi,
- Abstract要約: Paralinguistic Speech Captions (ParaSpeechCaps) は、リッチなスタイルのキャプションで音声を注釈する大規模データセットである。
ParaSpeechCapsは、話者レベルの固有のタグと発話レベルの状況タグを含む、59種類のタグをカバーしている。
人間のラベル付きデータ342時間、自動注釈付きデータ2427時間で構成される。
- 参考スコア(独自算出の注目度): 49.1662517033426
- License:
- Abstract: We introduce Paralinguistic Speech Captions (ParaSpeechCaps), a large-scale dataset that annotates speech utterances with rich style captions. While rich abstract tags (e.g. guttural, nasal, pained) have been explored in small-scale human-annotated datasets, existing large-scale datasets only cover basic tags (e.g. low-pitched, slow, loud). We combine off-the-shelf text and speech embedders, classifiers and an audio language model to automatically scale rich tag annotations for the first time. ParaSpeechCaps covers a total of 59 style tags, including both speaker-level intrinsic tags and utterance-level situational tags. It consists of 342 hours of human-labelled data (PSC-Base) and 2427 hours of automatically annotated data (PSC-Scaled). We finetune Parler-TTS, an open-source style-prompted TTS model, on ParaSpeechCaps, and achieve improved style consistency (+7.9% Consistency MOS) and speech quality (+15.5% Naturalness MOS) over the best performing baseline that combines existing rich style tag datasets. We ablate several of our dataset design choices to lay the foundation for future work in this space. Our dataset, models and code are released at https://github.com/ajd12342/paraspeechcaps .
- Abstract(参考訳): ParaSpeechCaps (ParaSpeechCaps) は,音声をリッチな字幕でアノテートする大規模データセットである。
リッチな抽象タグ(例えば、内臓、鼻、痛み)は、小さな人間の注釈付きデータセットで探索されているが、既存の大規模データセットは基本的なタグ(例えば、低ピッチ、遅い、大声)のみをカバーしている。
既製のテキストと音声埋め込み器,分類器,音声言語モデルを組み合わせて,リッチタグアノテーションを初めて自動スケールする。
ParaSpeechCapsは、話者レベルの固有のタグと発話レベルの状況タグを含む、59種類のタグをカバーしている。
342時間の人間ラベル付きデータ(PSC-Base)と2427時間の自動アノテーション付きデータ(PSC-Scaled)で構成されている。
ParaSpeechCaps上で、オープンソースのスタイルプロンプトTTSモデルであるParler-TTSを微調整し、既存のリッチなスタイルタグデータセットを組み合わせた最高のパフォーマンスベースライン上で、スタイル一貫性(+7.9% 一貫性 MOS)と音声品質(+15.5% 自然性 MOS)を向上させる。
この分野における今後の作業の基盤となるために、いくつかのデータセット設計選択を廃止しました。
私たちのデータセット、モデル、コードはhttps://github.com/ajd12342/paraspeechcapsでリリースされます。
関連論文リスト
- Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Synth4Kws: Synthesized Speech for User Defined Keyword Spotting in Low Resource Environments [8.103855990028842]
テキスト・トゥ・スピーチ(TTS)合成データをカスタムKWSに活用するフレームワークであるSynth4Kwsを紹介する。
TTSフレーズの多様性が増大し,発話サンプリングが単調にモデル性能を向上することがわかった。
我々の実験は英語と単一単語の発話に基づいているが、この結果はi18n言語に一般化されている。
論文 参考訳(メタデータ) (2024-07-23T21:05:44Z) - Natural language guidance of high-fidelity text-to-speech with synthetic
annotations [13.642358232817342]
本稿では,話者識別,スタイル,記録条件の様々な側面をラベル付けするスケーラブルな手法を提案する。
次に、この手法を45k時間データセットに適用し、音声言語モデルを訓練する。
その結果, アクセント, 韻律スタイル, チャネル条件, 音響条件の多岐にわたる高忠実度音声生成が得られた。
論文 参考訳(メタデータ) (2024-02-02T21:29:34Z) - StyleCap: Automatic Speaking-Style Captioning from Speech Based on
Speech and Language Self-supervised Learning Models [17.945821635380614]
StyleCapは、音声に現れる話し方の自然言語記述を生成する方法である。
StyleCapは、音声と自然言語の記述のペアデータで訓練される。
論文 参考訳(メタデータ) (2023-11-28T04:49:17Z) - TextrolSpeech: A Text Style Control Speech Corpus With Codec Language
Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。
本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。
そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T09:06:32Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - Self-supervised Context-aware Style Representation for Expressive Speech
Synthesis [23.460258571431414]
本稿では,平文からスタイル表現を自己教師型で学習するための新しいフレームワークを提案する。
感情のレキシコンを活用し、対照的な学習と深いクラスタリングを使用する。
本手法は,音声ブック音声におけるドメイン内およびドメイン外テストセットの主観的評価に基づいて,改善された結果を実現する。
論文 参考訳(メタデータ) (2022-06-25T05:29:48Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。