論文の概要: The Impact of Prosodic Segmentation on Speech Synthesis of Spontaneous Speech
- arxiv url: http://arxiv.org/abs/2511.14779v1
- Date: Thu, 06 Nov 2025 14:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-23 18:31:12.349459
- Title: The Impact of Prosodic Segmentation on Speech Synthesis of Spontaneous Speech
- Title(参考訳): 韻律分割が自発音声の音声合成に及ぼす影響
- Authors: Julio Cesar Galdino, Sidney Evaldo Leal, Leticia Gabriella De Souza, Rodrigo de Freitas Lima, Antonio Nelson Fornari Mendes Moreira, Arnaldo Candido Junior, Miguel Oliveira, Edresson Casanova, Sandra M. Aluísio,
- Abstract要約: 韻律的セグメンテーションによる訓練は、より分かりやすく、音響的に自然な音声を生み出した。
将来の研究をサポートするため、すべてのデータセット、ソースコード、訓練されたモデルはCC BY-NC-ND 4.0ライセンスの下で公開されている。
- 参考スコア(独自算出の注目度): 2.9762955286006965
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Spontaneous speech presents several challenges for speech synthesis, particularly in capturing the natural flow of conversation, including turn-taking, pauses, and disfluencies. Although speech synthesis systems have made significant progress in generating natural and intelligible speech, primarily through architectures that implicitly model prosodic features such as pitch, intensity, and duration, the construction of datasets with explicit prosodic segmentation and their impact on spontaneous speech synthesis remains largely unexplored. This paper evaluates the effects of manual and automatic prosodic segmentation annotations in Brazilian Portuguese on the quality of speech synthesized by a non-autoregressive model, FastSpeech 2. Experimental results show that training with prosodic segmentation produced slightly more intelligible and acoustically natural speech. While automatic segmentation tends to create more regular segments, manual prosodic segmentation introduces greater variability, which contributes to more natural prosody. Analysis of neutral declarative utterances showed that both training approaches reproduced the expected nuclear accent pattern, but the prosodic model aligned more closely with natural pre-nuclear contours. To support reproducibility and future research, all datasets, source codes, and trained models are publicly available under the CC BY-NC-ND 4.0 license.
- Abstract(参考訳): 自発音声は音声合成におけるいくつかの課題、特にターンテイク、一時停止、拡散など会話の自然な流れを捉えている。
音声合成システムは、自然かつ知性のある音声を生成するために大きな進歩を遂げてきたが、主に、ピッチ、強度、持続時間などの韻律的特徴を暗黙的にモデル化するアーキテクチャ、明示的な韻律的セグメンテーションによるデータセットの構築、そして自発的な音声合成への影響は、まだ明らかにされていない。
本稿では,ブラジルポルトガル語における手動と自動韻律のセグメンテーションアノテーションが,非自己回帰モデルであるFastSpeech 2で合成された音声品質に及ぼす影響について検討する。
実験結果から,韻律的セグメンテーションによる訓練により,より分かりやすく,自然な音声が得られた。
自動セグメンテーションはより規則的なセグメンテーションを生み出す傾向にあるが、手動韻律セグメンテーションはより多様性を持ち、より自然な韻律に寄与する。
中性宣言的発話の分析では、どちらの訓練手法も期待される核アクセントパターンを再現したが、韻律モデルは自然の核前輪郭とより密に一致していた。
再現性と将来の研究をサポートするため、すべてのデータセット、ソースコード、訓練されたモデルはCC BY-NC-ND 4.0ライセンスで公開されている。
関連論文リスト
- ProsodyFM: Unsupervised Phrasing and Intonation Control for Intelligible Speech Synthesis [49.299344959162056]
韻律は、言葉の文字通りの意味を超えた豊富な情報を含んでいる。
現在のモデルでは、フレーズやイントネーションが不足している。
本稿では,韻律を意識した音声合成モデルProsodyFMを提案する。
論文 参考訳(メタデータ) (2024-12-16T14:07:39Z) - Spontaneous Style Text-to-Speech Synthesis with Controllable Spontaneous Behaviors Based on Language Models [55.898594710420326]
本稿では,言語モデルに基づく新たな自然音声合成システムを提案する。
自発音声における微妙な韻律変化を捉えるモデルの能力を高めるために, きめ細かい韻律モデリングを導入する。
論文 参考訳(メタデータ) (2024-07-18T13:42:38Z) - Leveraging the Interplay Between Syntactic and Acoustic Cues for Optimizing Korean TTS Pause Formation [6.225927189801006]
本稿では,パジングパターンに関連する構文的手法と音響的手法の両方を包括的にモデル化する新しい枠組みを提案する。
注目に値することに、我々のフレームワークは、より拡張され複雑なドメイン外文(OOD)であっても、自然言語を一貫して生成する能力を持っている。
論文 参考訳(メタデータ) (2024-04-03T09:17:38Z) - Multi-Modal Automatic Prosody Annotation with Contrastive Pretraining of SSWP [18.90593650641679]
本稿では,2段階自動アノテーションパイプラインを提案する。
第1段階では,音声文と単語句読解ペアのコントラスト事前学習を用いて,潜在表現における韻律情報を強化する。
第2段階では,事前訓練されたエンコーダ,テキスト合成方式,シーケンス分類器からなるマルチモーダルな韻律アノテータを構築した。
英語韻律境界の実験により,韻律語と韻律句に対する0.72と0.93f1のスコアで最先端のSOTA(State-of-the-art)を達成できた。
論文 参考訳(メタデータ) (2023-09-11T12:50:28Z) - Towards Spontaneous Style Modeling with Semi-supervised Pre-training for
Conversational Text-to-Speech Synthesis [53.511443791260206]
自発型音声と自発型行動ラベルの量を増やすための半教師付き事前学習法を提案する。
半教師付き学習の過程では、音声中の自発的な行動ラベルを検出するために、テキスト情報と音声情報の両方が考慮される。
論文 参考訳(メタデータ) (2023-08-31T09:50:33Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Does BERT really agree ? Fine-grained Analysis of Lexical Dependence on
a Syntactic Task [70.29624135819884]
目的の構文テンプレート上で,BERTが語彙非依存の主観値数アグリーメント(NA)を実行できる範囲について検討した。
名詞文では,単純なテンプレートに対してモデルがよく一般化されるが,1つのアトラクターが存在する場合,語彙非依存の構文一般化を行うことができないことが示唆された。
論文 参考訳(メタデータ) (2022-04-14T11:33:15Z) - Prosody Learning Mechanism for Speech Synthesis System Without Text
Length Limit [39.258370942013165]
TTSシステムに基づく音声の韻律をモデル化するための韻律学習機構を提案する。
入力テキスト長の制限を解除するために,ローカルアテンションと呼ばれる新しい自己注意構造を提案する。
英語とマンダリンの実験から, より満足な韻律を持つ音声が得られたことが示唆された。
論文 参考訳(メタデータ) (2020-08-13T02:54:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。