論文の概要: Towards Spontaneous Style Modeling with Semi-supervised Pre-training for
Conversational Text-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2308.16593v1
- Date: Thu, 31 Aug 2023 09:50:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 14:53:17.737046
- Title: Towards Spontaneous Style Modeling with Semi-supervised Pre-training for
Conversational Text-to-Speech Synthesis
- Title(参考訳): 会話音声合成のための半教師付き事前学習による自発的スタイルモデリング
- Authors: Weiqin Li, Shun Lei, Qiaochu Huang, Yixuan Zhou, Zhiyong Wu, Shiyin
Kang, Helen Meng
- Abstract要約: 自発型音声と自発型行動ラベルの量を増やすための半教師付き事前学習法を提案する。
半教師付き学習の過程では、音声中の自発的な行動ラベルを検出するために、テキスト情報と音声情報の両方が考慮される。
- 参考スコア(独自算出の注目度): 53.511443791260206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The spontaneous behavior that often occurs in conversations makes speech more
human-like compared to reading-style. However, synthesizing spontaneous-style
speech is challenging due to the lack of high-quality spontaneous datasets and
the high cost of labeling spontaneous behavior. In this paper, we propose a
semi-supervised pre-training method to increase the amount of spontaneous-style
speech and spontaneous behavioral labels. In the process of semi-supervised
learning, both text and speech information are considered for detecting
spontaneous behaviors labels in speech. Moreover, a linguistic-aware encoder is
used to model the relationship between each sentence in the conversation.
Experimental results indicate that our proposed method achieves superior
expressive speech synthesis performance with the ability to model spontaneous
behavior in spontaneous-style speech and predict reasonable spontaneous
behavior from text.
- Abstract(参考訳): 会話でしばしば起こる自発的な行動は、読書スタイルに比べて、発話をより人間らしくする。
しかし、高品質な自発的データセットの欠如や、自然行動のラベル付けのコストが高いため、自然発話の合成は困難である。
本稿では,自発的音声と自発的行動ラベルの量を増やすための半教師付き事前学習法を提案する。
半教師付き学習の過程では、音声中の自発的な行動ラベルを検出するために、テキスト情報と音声情報の両方が考慮される。
さらに、会話中の各文間の関係をモデル化するために言語認識エンコーダを用いる。
提案手法は,自然発話における自発行動をモデル化し,テキストから合理的な自発行動を予測することで,表現力の高い音声合成性能が得られることを示す。
関連論文リスト
- Spontaneous Style Text-to-Speech Synthesis with Controllable Spontaneous Behaviors Based on Language Models [55.898594710420326]
本稿では,言語モデルに基づく新たな自然音声合成システムを提案する。
自発音声における微妙な韻律変化を捉えるモデルの能力を高めるために, きめ細かい韻律モデリングを導入する。
論文 参考訳(メタデータ) (2024-07-18T13:42:38Z) - Controlling Emotion in Text-to-Speech with Natural Language Prompts [29.013577423045255]
本稿では,感情に富んだテキストの繰り返しから派生した埋め込みを前提としたシステムを提案する。
話者とプロンプト埋め込みの合同表現は、トランスフォーマーベースアーキテクチャ内のいくつかの点で統合される。
本手法は感情音声とテキストデータセットを融合して学習し,モデルの一般化能力を高めるため,各訓練におけるプロンプトを変化させる。
論文 参考訳(メタデータ) (2024-06-10T15:58:42Z) - Expressivity and Speech Synthesis [51.75420054449122]
われわれはこれまでの方法論の進歩を概説し、その次のレベルの人工表現性に到達するための継続的な取り組みを概説した。
また、社会的な意味と、急速に進歩する表現型音声合成(ESS)技術についても論じる。
論文 参考訳(メタデータ) (2024-04-30T08:47:24Z) - Non-verbal information in spontaneous speech -- towards a new framework
of analysis [0.5559722082623594]
本稿では,韻律信号の分類のための解析的スキーマと技術的概念実証を提供する。
3つの順序の韻律現象を解き放つ分類過程を示す。
散在する韻律パターンは、コミュニケーションと音声の組織化の理論を導くことができる。
論文 参考訳(メタデータ) (2024-03-06T08:03:05Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Empirical Study Incorporating Linguistic Knowledge on Filled Pauses for
Personalized Spontaneous Speech Synthesis [35.32703818003108]
個人の声の音色と発話の拡散の両方をクローンできるパーソナライズされた自発音声合成に焦点を当てる。
複数話者コーパスで学習した非個人化外部充満停止予測器を用いた音声合成手法を開発した。
論文 参考訳(メタデータ) (2022-10-14T06:29:33Z) - AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style [111.89762723159677]
AdaSpeech 3 は,順応性のある TTS システムである。
AdaSpeech 3は自然なFPとリズムを自発的なスタイルで合成し、従来の適応TSシステムよりもずっと優れたMOSとSMOSスコアを達成する。
論文 参考訳(メタデータ) (2021-07-06T10:40:45Z) - On the Role of Style in Parsing Speech with Neural Models [25.442727974788255]
本研究は, 自然発話の構文解析を改善するために, テキストによるニューラルアプローチが有用であることを示す。
読み書きと自然発話の非対称的な劣化がみられた。
論文 参考訳(メタデータ) (2020-10-08T22:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。