Fugu-MT 論文翻訳(概要): Towards Spontaneous Style Modeling with Semi-supervised Pre-training for Conversational Text-to-Speech Synthesis

論文の概要: Towards Spontaneous Style Modeling with Semi-supervised Pre-training for Conversational Text-to-Speech Synthesis

arxiv url: http://arxiv.org/abs/2308.16593v1
Date: Thu, 31 Aug 2023 09:50:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-01 14:53:17.737046
Title: Towards Spontaneous Style Modeling with Semi-supervised Pre-training for Conversational Text-to-Speech Synthesis
Title（参考訳）: 会話音声合成のための半教師付き事前学習による自発的スタイルモデリング
Authors: Weiqin Li, Shun Lei, Qiaochu Huang, Yixuan Zhou, Zhiyong Wu, Shiyin Kang, Helen Meng
Abstract要約: 自発型音声と自発型行動ラベルの量を増やすための半教師付き事前学習法を提案する。半教師付き学習の過程では、音声中の自発的な行動ラベルを検出するために、テキスト情報と音声情報の両方が考慮される。
参考スコア（独自算出の注目度）: 53.511443791260206
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The spontaneous behavior that often occurs in conversations makes speech more human-like compared to reading-style. However, synthesizing spontaneous-style speech is challenging due to the lack of high-quality spontaneous datasets and the high cost of labeling spontaneous behavior. In this paper, we propose a semi-supervised pre-training method to increase the amount of spontaneous-style speech and spontaneous behavioral labels. In the process of semi-supervised learning, both text and speech information are considered for detecting spontaneous behaviors labels in speech. Moreover, a linguistic-aware encoder is used to model the relationship between each sentence in the conversation. Experimental results indicate that our proposed method achieves superior expressive speech synthesis performance with the ability to model spontaneous behavior in spontaneous-style speech and predict reasonable spontaneous behavior from text.
Abstract（参考訳）: 会話でしばしば起こる自発的な行動は、読書スタイルに比べて、発話をより人間らしくする。しかし、高品質な自発的データセットの欠如や、自然行動のラベル付けのコストが高いため、自然発話の合成は困難である。本稿では,自発的音声と自発的行動ラベルの量を増やすための半教師付き事前学習法を提案する。半教師付き学習の過程では、音声中の自発的な行動ラベルを検出するために、テキスト情報と音声情報の両方が考慮される。さらに、会話中の各文間の関係をモデル化するために言語認識エンコーダを用いる。提案手法は,自然発話における自発行動をモデル化し,テキストから合理的な自発行動を予測することで,表現力の高い音声合成性能が得られることを示す。

関連論文リスト

Enabling Conversational Behavior Reasoning Capabilities in Full-Duplex Speech [15.41279444168073]
我々は,このプロセスをグラフ・オブ・ソート(GoT)内の因果推論としてモデル化することで,会話行動に対する推論を可能にするフレームワークを導入する。我々は、制御可能でイベントリッチなシミュレーションと、有意な有理数と実際の会話音声とを組み合わせたハイブリッドコーパスを開発する。 GoTフレームワークは、ストリーミング予測を進化グラフとして構成し、マルチモーダルトランスフォーマーが次の音声行為を予測することを可能にする。
論文参考訳（メタデータ） (2025-12-25T15:00:50Z)
The Impact of Prosodic Segmentation on Speech Synthesis of Spontaneous Speech [2.9762955286006965]
韻律的セグメンテーションによる訓練は、より分かりやすく、音響的に自然な音声を生み出した。将来の研究をサポートするため、すべてのデータセット、ソースコード、訓練されたモデルはCC BY-NC-ND 4.0ライセンスの下で公開されている。
論文参考訳（メタデータ） (2025-11-06T14:49:06Z)
Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。 AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文参考訳（メタデータ） (2025-06-26T16:45:20Z)
Spontaneous Style Text-to-Speech Synthesis with Controllable Spontaneous Behaviors Based on Language Models [55.898594710420326]
本稿では,言語モデルに基づく新たな自然音声合成システムを提案する。自発音声における微妙な韻律変化を捉えるモデルの能力を高めるために, きめ細かい韻律モデリングを導入する。
論文参考訳（メタデータ） (2024-07-18T13:42:38Z)
Controlling Emotion in Text-to-Speech with Natural Language Prompts [29.013577423045255]
本稿では,感情に富んだテキストの繰り返しから派生した埋め込みを前提としたシステムを提案する。話者とプロンプト埋め込みの合同表現は、トランスフォーマーベースアーキテクチャ内のいくつかの点で統合される。本手法は感情音声とテキストデータセットを融合して学習し,モデルの一般化能力を高めるため,各訓練におけるプロンプトを変化させる。
論文参考訳（メタデータ） (2024-06-10T15:58:42Z)
Expressivity and Speech Synthesis [51.75420054449122]
われわれはこれまでの方法論の進歩を概説し、その次のレベルの人工表現性に到達するための継続的な取り組みを概説した。また、社会的な意味と、急速に進歩する表現型音声合成(ESS)技術についても論じる。
論文参考訳（メタデータ） (2024-04-30T08:47:24Z)
Non-verbal information in spontaneous speech -- towards a new framework of analysis [0.5559722082623594]
本稿では,韻律信号の分類のための解析的スキーマと技術的概念実証を提供する。 3つの順序の韻律現象を解き放つ分類過程を示す。散在する韻律パターンは、コミュニケーションと音声の組織化の理論を導くことができる。
論文参考訳（メタデータ） (2024-03-06T08:03:05Z)
Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT) モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文参考訳（メタデータ） (2023-12-23T18:14:56Z)
EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文参考訳（メタデータ） (2023-08-10T17:41:19Z)
Empirical Study Incorporating Linguistic Knowledge on Filled Pauses for Personalized Spontaneous Speech Synthesis [35.32703818003108]
個人の声の音色と発話の拡散の両方をクローンできるパーソナライズされた自発音声合成に焦点を当てる。複数話者コーパスで学習した非個人化外部充満停止予測器を用いた音声合成手法を開発した。
論文参考訳（メタデータ） (2022-10-14T06:29:33Z)
AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style [111.89762723159677]
AdaSpeech 3 は,順応性のある TTS システムである。 AdaSpeech 3は自然なFPとリズムを自発的なスタイルで合成し、従来の適応TSシステムよりもずっと優れたMOSとSMOSスコアを達成する。
論文参考訳（メタデータ） (2021-07-06T10:40:45Z)
On the Role of Style in Parsing Speech with Neural Models [25.442727974788255]
本研究は, 自然発話の構文解析を改善するために, テキストによるニューラルアプローチが有用であることを示す。読み書きと自然発話の非対称的な劣化がみられた。
論文参考訳（メタデータ） (2020-10-08T22:44:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。