論文の概要: Towards Spontaneous Style Modeling with Semi-supervised Pre-training for
Conversational Text-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2308.16593v1
- Date: Thu, 31 Aug 2023 09:50:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 14:53:17.737046
- Title: Towards Spontaneous Style Modeling with Semi-supervised Pre-training for
Conversational Text-to-Speech Synthesis
- Title(参考訳): 会話音声合成のための半教師付き事前学習による自発的スタイルモデリング
- Authors: Weiqin Li, Shun Lei, Qiaochu Huang, Yixuan Zhou, Zhiyong Wu, Shiyin
Kang, Helen Meng
- Abstract要約: 自発型音声と自発型行動ラベルの量を増やすための半教師付き事前学習法を提案する。
半教師付き学習の過程では、音声中の自発的な行動ラベルを検出するために、テキスト情報と音声情報の両方が考慮される。
- 参考スコア(独自算出の注目度): 53.511443791260206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The spontaneous behavior that often occurs in conversations makes speech more
human-like compared to reading-style. However, synthesizing spontaneous-style
speech is challenging due to the lack of high-quality spontaneous datasets and
the high cost of labeling spontaneous behavior. In this paper, we propose a
semi-supervised pre-training method to increase the amount of spontaneous-style
speech and spontaneous behavioral labels. In the process of semi-supervised
learning, both text and speech information are considered for detecting
spontaneous behaviors labels in speech. Moreover, a linguistic-aware encoder is
used to model the relationship between each sentence in the conversation.
Experimental results indicate that our proposed method achieves superior
expressive speech synthesis performance with the ability to model spontaneous
behavior in spontaneous-style speech and predict reasonable spontaneous
behavior from text.
- Abstract(参考訳): 会話でしばしば起こる自発的な行動は、読書スタイルに比べて、発話をより人間らしくする。
しかし、高品質な自発的データセットの欠如や、自然行動のラベル付けのコストが高いため、自然発話の合成は困難である。
本稿では,自発的音声と自発的行動ラベルの量を増やすための半教師付き事前学習法を提案する。
半教師付き学習の過程では、音声中の自発的な行動ラベルを検出するために、テキスト情報と音声情報の両方が考慮される。
さらに、会話中の各文間の関係をモデル化するために言語認識エンコーダを用いる。
提案手法は,自然発話における自発行動をモデル化し,テキストから合理的な自発行動を予測することで,表現力の高い音声合成性能が得られることを示す。
関連論文リスト
- Non-verbal information in spontaneous speech -- towards a new framework
of analysis [0.5559722082623594]
本稿では,韻律信号の分類のための解析的スキーマと技術的概念実証を提供する。
3つの順序の韻律現象を解き放つ分類過程を示す。
散在する韻律パターンは、コミュニケーションと音声の組織化の理論を導くことができる。
論文 参考訳(メタデータ) (2024-03-06T08:03:05Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Emotional Listener Portrait: Realistic Listener Motion Simulation in
Conversation [50.35367785674921]
リスナーヘッドジェネレーションは、話者から提供される情報を参照して、リスナーの非言語行動を生成することに集中する。
このような反応を生成する上で重要な課題は、会話中のきめ細かい表情の非決定論的性質である。
本稿では,複数の個別な動きコーパスの合成として,各顔の動きを微粒化処理する情緒的リスナー・ポートレート(ELP)を提案する。
ELPモデルは,学習分布からのサンプリングにより,与えられた話者に対する自然な,多様な応答を自動的に生成するだけでなく,所定の姿勢で制御可能な応答を生成することができる。
論文 参考訳(メタデータ) (2023-09-29T18:18:32Z) - Multi-Modal Automatic Prosody Annotation with Contrastive Pretraining of
SSWP [13.370813866319669]
本稿では,2段階自動アノテーションパイプラインを提案する。
第1段階では,音声文と単語句読解(SSWP)ペアのコントラッシブ・テキスト・プレトレーニングを提案する。
第2段階では、事前訓練されたエンコーダで構成されるマルチモーダル・プロソディアノテータを構築し、単純で効果的なテキスト音声特徴融合方式を提案する。
論文 参考訳(メタデータ) (2023-09-11T12:50:28Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Prosody-controllable spontaneous TTS with neural HMMs [11.472325158964646]
小型で不規則なデータセットから素早く学習できるTSアーキテクチャを提案する。
我々は既存のニューラルHMMベースのTSシステムに発話レベルの韻律制御を加える。
本研究では,2種類の難聴音声を合成するシステムの性能を評価する。
論文 参考訳(メタデータ) (2022-11-24T11:06:11Z) - Empirical Study Incorporating Linguistic Knowledge on Filled Pauses for
Personalized Spontaneous Speech Synthesis [35.32703818003108]
個人の声の音色と発話の拡散の両方をクローンできるパーソナライズされた自発音声合成に焦点を当てる。
複数話者コーパスで学習した非個人化外部充満停止予測器を用いた音声合成手法を開発した。
論文 参考訳(メタデータ) (2022-10-14T06:29:33Z) - AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style [111.89762723159677]
AdaSpeech 3 は,順応性のある TTS システムである。
AdaSpeech 3は自然なFPとリズムを自発的なスタイルで合成し、従来の適応TSシステムよりもずっと優れたMOSとSMOSスコアを達成する。
論文 参考訳(メタデータ) (2021-07-06T10:40:45Z) - Ctrl-P: Temporal Control of Prosodic Variation for Speech Synthesis [68.76620947298595]
テキストは音声形式を完全には規定しないので、テキストから音声へのモデルは、対応するテキストで説明されない方法で異なる音声データから学習できなければならない。
韻律の3つの一次音響相関に明示的に条件付けされた音声を生成するモデルを提案する。
論文 参考訳(メタデータ) (2021-06-15T18:03:48Z) - On the Role of Style in Parsing Speech with Neural Models [25.442727974788255]
本研究は, 自然発話の構文解析を改善するために, テキストによるニューラルアプローチが有用であることを示す。
読み書きと自然発話の非対称的な劣化がみられた。
論文 参考訳(メタデータ) (2020-10-08T22:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。