論文の概要: ProsodyFM: Unsupervised Phrasing and Intonation Control for Intelligible Speech Synthesis
- arxiv url: http://arxiv.org/abs/2412.11795v2
- Date: Thu, 19 Dec 2024 15:21:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:30:12.891088
- Title: ProsodyFM: Unsupervised Phrasing and Intonation Control for Intelligible Speech Synthesis
- Title(参考訳): ProsodyFM:インテリジェント音声合成のための教師なしプラーシングとイントネーション制御
- Authors: Xiangheng He, Junjie Chen, Zixing Zhang, Björn W. Schuller,
- Abstract要約: 韻律は、言葉の文字通りの意味を超えた豊富な情報を含んでいる。
現在のモデルでは、フレーズやイントネーションが不足している。
本稿では,韻律を意識した音声合成モデルProsodyFMを提案する。
- 参考スコア(独自算出の注目度): 49.299344959162056
- License:
- Abstract: Prosody contains rich information beyond the literal meaning of words, which is crucial for the intelligibility of speech. Current models still fall short in phrasing and intonation; they not only miss or misplace breaks when synthesizing long sentences with complex structures but also produce unnatural intonation. We propose ProsodyFM, a prosody-aware text-to-speech synthesis (TTS) model with a flow-matching (FM) backbone that aims to enhance the phrasing and intonation aspects of prosody. ProsodyFM introduces two key components: a Phrase Break Encoder to capture initial phrase break locations, followed by a Duration Predictor for the flexible adjustment of break durations; and a Terminal Intonation Encoder which learns a bank of intonation shape tokens combined with a novel Pitch Processor for more robust modeling of human-perceived intonation change. ProsodyFM is trained with no explicit prosodic labels and yet can uncover a broad spectrum of break durations and intonation patterns. Experimental results demonstrate that ProsodyFM can effectively improve the phrasing and intonation aspects of prosody, thereby enhancing the overall intelligibility compared to four state-of-the-art (SOTA) models. Out-of-distribution experiments show that this prosody improvement can further bring ProsodyFM superior generalizability for unseen complex sentences and speakers. Our case study intuitively illustrates the powerful and fine-grained controllability of ProsodyFM over phrasing and intonation.
- Abstract(参考訳): 韻律は、言葉の文字通りの意味を超えた豊富な情報を含んでいる。
長い文を複雑な構造で合成する際に、誤りや間違いを犯すだけでなく、不自然なイントネーションも生み出す。
本稿では,韻律の韻律的側面と抑揚性を高めることを目的とした,フローマッチング(FM)バックボーンを備えた韻律対応テキスト音声合成(TTS)モデルであるProsodyFMを提案する。
ProsodyFMでは、最初のフレーズブレーク位置をキャプチャするためのPhrase Break Encoderと、ブレーク期間の柔軟な調整のためのDuration Predictor、新しいピッチプロセッサと組み合わせて、人間の知覚したインネーション変化をより堅牢にモデリングするためのContination Intonation Encoderという2つの重要なコンポーネントを紹介している。
プロソディFMは明示的な韻律的ラベルなしで訓練され、しかし、幅広い破壊期間とイントネーションパターンを明らかにすることができる。
実験結果から,ProsodyFMは韻律のフレーズやイントネーションの面を効果的に改善し,4つの最先端(SOTA)モデルと比較して全体的なインテリジェンスを向上させることができることが示された。
アウト・オブ・ディストリビューション実験により、この韻律改善により、目に見えない複雑な文や話者に対して、ProsodyFMの優れた一般化性がもたらされることが示されている。
本症例では,韻律FMの表現とイントネーションに対する強力できめ細かな制御性について直感的に説明する。
関連論文リスト
- High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Fine-grained Noise Control for Multispeaker Speech Synthesis [3.449700218265025]
テキスト音声モデル(TTS)は、典型的には、内容、話者、韻律などの音声属性を非絡み合い表現に分解する。
近年の課題は, 音響条件を的確にモデル化することであり, 主要な音声要因を解消することである。
論文 参考訳(メタデータ) (2022-04-11T13:13:55Z) - Improving Prosody for Unseen Texts in Speech Synthesis by Utilizing
Linguistic Information and Noisy Data [20.132799566988826]
本稿では,BERTをベースとした精密なフロントエンドと事前学習したFastSpeech2ベースの音響モデルを組み合わせることで,韻律モデリングを改善することを提案する。
実験結果から,細調整されたBERTモデルと事前訓練されたFastSpeech 2の両方が,特に構造的に複雑な文の韻律を改善できることが示唆された。
論文 参考訳(メタデータ) (2021-11-15T05:58:29Z) - Ctrl-P: Temporal Control of Prosodic Variation for Speech Synthesis [68.76620947298595]
テキストは音声形式を完全には規定しないので、テキストから音声へのモデルは、対応するテキストで説明されない方法で異なる音声データから学習できなければならない。
韻律の3つの一次音響相関に明示的に条件付けされた音声を生成するモデルを提案する。
論文 参考訳(メタデータ) (2021-06-15T18:03:48Z) - Improving Prosody Modelling with Cross-Utterance BERT Embeddings for
End-to-end Speech Synthesis [39.869097209615724]
事前訓練されたBERTモデルにより抽出された文埋め込みに基づいて、追加のCUエンコーダにより、CUコンテキストベクトルを生成する。
また, 近隣の文を変化させることで, 間接的に韻律を制御できることが判明した。
論文 参考訳(メタデータ) (2020-11-06T10:03:11Z) - Prosody Learning Mechanism for Speech Synthesis System Without Text
Length Limit [39.258370942013165]
TTSシステムに基づく音声の韻律をモデル化するための韻律学習機構を提案する。
入力テキスト長の制限を解除するために,ローカルアテンションと呼ばれる新しい自己注意構造を提案する。
英語とマンダリンの実験から, より満足な韻律を持つ音声が得られたことが示唆された。
論文 参考訳(メタデータ) (2020-08-13T02:54:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。