論文の概要: StoryTTS: A Highly Expressive Text-to-Speech Dataset with Rich Textual Expressiveness Annotations
- arxiv url: http://arxiv.org/abs/2404.14946v1
- Date: Tue, 23 Apr 2024 11:41:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 14:21:26.305987
- Title: StoryTTS: A Highly Expressive Text-to-Speech Dataset with Rich Textual Expressiveness Annotations
- Title(参考訳): StoryTTS: リッチテキスト表現性アノテーションを用いた高表現力テキスト音声データセット
- Authors: Sen Liu, Yiwei Guo, Xie Chen, Kai Yu,
- Abstract要約: 本稿では,高ETTSデータセットであるStoryTTSについて紹介する。
StoryTTSでは,言語学や修辞学などを通じて,5つの異なる次元を含む音声関連テキスト表現を分析・定義する。
得られたコーパスは、正確なテキスト書き起こしとリッチテキスト表現性アノテーションを備えた61時間連続かつ高韻律音声を含む。
- 参考スコア(独自算出の注目度): 12.891344121936902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While acoustic expressiveness has long been studied in expressive text-to-speech (ETTS), the inherent expressiveness in text lacks sufficient attention, especially for ETTS of artistic works. In this paper, we introduce StoryTTS, a highly ETTS dataset that contains rich expressiveness both in acoustic and textual perspective, from the recording of a Mandarin storytelling show. A systematic and comprehensive labeling framework is proposed for textual expressiveness. We analyze and define speech-related textual expressiveness in StoryTTS to include five distinct dimensions through linguistics, rhetoric, etc. Then we employ large language models and prompt them with a few manual annotation examples for batch annotation. The resulting corpus contains 61 hours of consecutive and highly prosodic speech equipped with accurate text transcriptions and rich textual expressiveness annotations. Therefore, StoryTTS can aid future ETTS research to fully mine the abundant intrinsic textual and acoustic features. Experiments are conducted to validate that TTS models can generate speech with improved expressiveness when integrating with the annotated textual labels in StoryTTS.
- Abstract(参考訳): 音声表現性は, 表現的テキスト音声(ETTS)において長年研究されてきたが, テクストの本質的な表現性は, 特に芸術作品のETTSにおいて十分な注意を払っていない。
本稿では,マンダリン・ストーリーテリング・ショーの収録から,音声とテキストの両方の観点からリッチな表現性を含む高ETTSデータセットであるStoryTTSを紹介する。
テキスト表現性のための体系的で包括的なラベリングフレームワークを提案する。
StoryTTSでは,言語学や修辞学などを通じて,5つの異なる次元を含む音声関連テキスト表現を分析・定義する。
次に、大きな言語モデルを使用し、バッチアノテーションのいくつかの手作業によるアノテーションの例を示します。
得られたコーパスは、正確なテキスト書き起こしとリッチテキスト表現性アノテーションを備えた61時間連続かつ高韻律音声を含む。
そのため、StoryTTSは将来のETTS研究を支援し、本質的なテクストや音響的特徴を十分に掘り下げることができる。
StoryTTSの注釈付きテキストラベルと統合した場合、TTSモデルが表現性を向上した音声を生成できることを検証する実験を行った。
関連論文リスト
- Making Social Platforms Accessible: Emotion-Aware Speech Generation with Integrated Text Analysis [3.8251125989631674]
本稿では,エンドツーエンドの文脈認識型テキスト音声合成システムを提案する。
テキスト入力から伝達された感情を導き出し、自然な、表現力のある音声に対する感情と話者の特徴に焦点を当てた音声を合成する。
本システムでは,最先端のTSモデルと比較した場合の競合予測時間性能を示す。
論文 参考訳(メタデータ) (2024-10-24T23:18:02Z) - Emphasis Rendering for Conversational Text-to-Speech with Multi-modal Multi-scale Context Modeling [40.32021786228235]
Conversational Text-to-Speech (CTTS) は、会話設定内で適切なスタイルで発話を正確に表現することを目的としている。
ER-CTTSと呼ばれるCTTSモデルのための新しい強調レンダリング手法を提案する。
データ不足に対処するため、既存の会話データセット(DailyTalk)に強調強調アノテーションを作成します。
論文 参考訳(メタデータ) (2024-10-12T13:02:31Z) - Grammar Induction from Visual, Speech and Text [91.98797120799227]
本研究は、新しい視覚音声テキスト文法誘導タスク(textbfVAT-GI)を導入する。
言語文法がテキストを超えて存在するという事実に触発されて、テキストは文法帰納において支配的なモダリティであってはならないと論じる。
そこで本稿では,豊富なモーダル特化機能と補完機能を有効文法解析に活用した,ビジュアル・オーディオ・テキスト・インサイド・アウトサイド・オートエンコーダ(textbfVaTiora)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-01T02:24:18Z) - DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。
我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。
これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-27T03:52:35Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - EE-TTS: Emphatic Expressive TTS with Linguistic Information [16.145985004361407]
強調音声と言語情報を用いて表現音声を合成するEmphatic Expressive TTS(EE-TTS)を提案する。
EE-TTSはテキストから適切な強調位置を識別できる強調予測器を含んでいる。
実験の結果、EE-TTSは、表現性と自然性において、MOSの改善0.49と0.67でベースラインを上回った。
論文 参考訳(メタデータ) (2023-05-20T05:58:56Z) - Contextual Expressive Text-to-Speech [25.050361896378533]
我々は新しいタスク設定 Contextual Text-to-speech (CTTS) を導入する。
CTTSの主な考え方は、人がどのように話すかは、通常、コンテキストをテキストとして表現できる特定のコンテキストに依存する、というものである。
合成データセットを構築し、与えられた文脈に基づいて高品質な表現音声を生成するための効果的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-11-26T12:06:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。