論文の概要: A Study of Modeling Rising Intonation in Cantonese Neural Speech
Synthesis
- arxiv url: http://arxiv.org/abs/2208.02189v1
- Date: Wed, 3 Aug 2022 16:21:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 13:14:15.616589
- Title: A Study of Modeling Rising Intonation in Cantonese Neural Speech
Synthesis
- Title(参考訳): カントンニューラル音声合成におけるイントネーションのモデル化に関する研究
- Authors: Qibing Bai, Tom Ko, Yu Zhang
- Abstract要約: 宣言的な質問は毎日のカントン会話でよく使われる。
Vanilla Neural Text-to-Speech (TTS) システムはこれらの文に対して上昇するイントネーションを合成することができない。
本稿では, BERTに基づく文/問合せ分類器を用いて, Cantonese TTSモデルを補完することを提案する。
- 参考スコア(独自算出の注目度): 10.747119651974947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In human speech, the attitude of a speaker cannot be fully expressed only by
the textual content. It has to come along with the intonation. Declarative
questions are commonly used in daily Cantonese conversations, and they are
usually uttered with rising intonation. Vanilla neural text-to-speech (TTS)
systems are not capable of synthesizing rising intonation for these sentences
due to the loss of semantic information. Though it has become more common to
complement the systems with extra language models, their performance in
modeling rising intonation is not well studied. In this paper, we propose to
complement the Cantonese TTS model with a BERT-based statement/question
classifier. We design different training strategies and compare their
performance. We conduct our experiments on a Cantonese corpus named CanTTS.
Empirical results show that the separate training approach obtains the best
generalization performance and feasibility.
- Abstract(参考訳): 人間の発話では、話者の態度はテキストの内容だけでは完全には表現できない。
それはイントネーションに従わなければならない。
宣言的な質問は毎日のカントン会話でよく使われ、通常はイントネーションの上昇と共に発声される。
バニラニューラル・テキスト・ツー・スパイチ(vanilla neural text-to-speech, tts)システムは、意味情報の喪失によりこれらの文の上昇イントネーションを合成できない。
余分な言語モデルでシステムを補完することが一般的になったが、そのモデリングにおける性能は十分に研究されていない。
本稿では, BERTに基づく文/問合せ分類器を用いて, カントンTSモデルを補完することを提案する。
私たちは異なるトレーニング戦略を設計し、パフォーマンスを比較します。
我々はカントン語コーパスcanttsを用いて実験を行った。
実験結果から,分離学習アプローチは最良の一般化性能と実現性が得られることが示された。
関連論文リスト
- TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Leveraging the Interplay Between Syntactic and Acoustic Cues for Optimizing Korean TTS Pause Formation [6.225927189801006]
本稿では,パジングパターンに関連する構文的手法と音響的手法の両方を包括的にモデル化する新しい枠組みを提案する。
注目に値することに、我々のフレームワークは、より拡張され複雑なドメイン外文(OOD)であっても、自然言語を一貫して生成する能力を持っている。
論文 参考訳(メタデータ) (2024-04-03T09:17:38Z) - Syllable based DNN-HMM Cantonese Speech to Text System [3.976127530758402]
本稿では,音節ベース音響モデルを用いたカントーン音声テキスト(STT)システムを構築する。
OnCに基づく音節音響モデリングは、単語誤り率(WER)が9.66%、リアルタイム係数(RTF)が1.38812で最高の性能を達成する。
論文 参考訳(メタデータ) (2024-02-13T20:54:24Z) - SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic
Organization in HuBERT [49.06057768982775]
音声の文レベル表現の学習において,音節的組織が出現することを示す。
本稿では,音声の文レベル表現を評価するための新しいベンチマークタスクであるSpken Speech ABXを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:05:36Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - QI-TTS: Questioning Intonation Control for Emotional Speech Synthesis [29.962519978925236]
本稿では,QI-TTSを提案する。このQI-TTSは,話者の問合せ意図をさらに高めるために,イントネーションの伝達と制御を改善することを目的としている。
2つの異なるレベルからスタイル埋め込みを抽出するマルチスタイル抽出器を提案する。
感情音声のイントネーション改善のためのQI-TTSの有効性を実験により検証した。
論文 参考訳(メタデータ) (2023-03-14T07:53:19Z) - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.55131711064935]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。
具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。
Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文 参考訳(メタデータ) (2023-01-05T15:37:15Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - A Novel Chinese Dialect TTS Frontend with Non-Autoregressive Neural
Machine Translation [6.090922774386845]
翻訳モジュールを用いた中国語方言TTSを提案する。
マンダリンのテキストを正しい正書法と文法で慣用表現に変換するのに役立つ。
TTSに翻訳を取り入れた最初の作品である。
論文 参考訳(メタデータ) (2022-06-10T07:46:34Z) - Into-TTS : Intonation Template based Prosody Control System [17.68906373821669]
イントネーションは、話者の意図を伝える上で重要な役割を果たす。
現在のエンドツーエンドTSシステムは、適切なイントネーションをモデル化できないことが多い。
そこで我々は,異なる音調で音声を合成する,新しい直感的な手法を提案する。
論文 参考訳(メタデータ) (2022-04-04T06:37:19Z) - Modeling Prosodic Phrasing with Multi-Task Learning in Tacotron-based
TTS [74.11899135025503]
本稿では,Tacotronに基づく音声合成フレームワークを拡張し,韻律句のブレークを明示的にモデル化する。
提案手法は中国語とモンゴル語の両方の音質を一貫して改善することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。