論文の概要: Explicit Intensity Control for Accented Text-to-speech
- arxiv url: http://arxiv.org/abs/2210.15364v1
- Date: Thu, 27 Oct 2022 12:23:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 15:43:23.788613
- Title: Explicit Intensity Control for Accented Text-to-speech
- Title(参考訳): アクセントテキスト音声の明示的強度制御
- Authors: Rui Liu, Haolin Zuo, De Hu, Guanglai Gao, Haizhou Li
- Abstract要約: TTSの過程におけるアクセントの強度の制御は、非常に興味深い研究方向である。
近年の作業は、話者とアクセント情報をアンタングルし、そのアクセント強度を制御するために損失重量を調整するために、話者対アダルロスを設計している。
本稿では,アクセント付きTSのための直感的かつ明示的なアクセント強度制御方式を提案する。
- 参考スコア(独自算出の注目度): 65.35831577398174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accented text-to-speech (TTS) synthesis seeks to generate speech with an
accent (L2) as a variant of the standard version (L1). How to control the
intensity of accent in the process of TTS is a very interesting research
direction, and has attracted more and more attention. Recent work design a
speaker-adversarial loss to disentangle the speaker and accent information, and
then adjust the loss weight to control the accent intensity. However, such a
control method lacks interpretability, and there is no direct correlation
between the controlling factor and natural accent intensity. To this end, this
paper propose a new intuitive and explicit accent intensity control scheme for
accented TTS. Specifically, we first extract the posterior probability, called
as ``goodness of pronunciation (GoP)'' from the L1 speech recognition model to
quantify the phoneme accent intensity for accented speech, then design a
FastSpeech2 based TTS model, named Ai-TTS, to take the accent intensity
expression into account during speech generation. Experiments show that the our
method outperforms the baseline model in terms of accent rendering and
intensity control.
- Abstract(参考訳): accented text-to-speech (tts) 合成は、標準バージョン (l1) の変種としてアクセント (l2) を持つ音声を生成する。
ttsのプロセスにおけるアクセントの強さを制御する方法は、非常に興味深い研究方向であり、ますます注目を集めている。
近年の作業は、話者とアクセント情報をアンタングルして、そのアクセント強度を制御するために損失重量を調整するために、話者対逆損失を設計している。
しかし、そのような制御方法は解釈可能性に欠けており、制御因子と自然アクセント強度の間に直接相関はない。
そこで本稿では,アクセント付きttsに対する新しい直感的かつ明示的なアクセント強度制御手法を提案する。
具体的には、まず、l1音声認識モデルから'goodness of pronunciation (gop)'と呼ばれる後方確率を抽出し、アクセント付き音声の音素アクセント強度を定量化し、その後、音声生成中にアクセント強度表現を考慮し、ai-ttsと呼ばれるfastspeech2ベースのttsモデルを設計する。
実験により,アクセントのレンダリングとインテンシティ制御の観点から,本手法がベースラインモデルを上回ることを示した。
関連論文リスト
- Improving Pronunciation and Accent Conversion through Knowledge Distillation And Synthetic Ground-Truth from Native TTS [52.89324095217975]
アクセント変換に対する従来のアプローチは主に非ネイティブ音声をよりネイティブにすることを目的としていた。
我々は、アクセント変換だけでなく、非ネイティブアクセント話者の発音を改善する新しいACアプローチを開発した。
論文 参考訳(メタデータ) (2024-10-19T06:12:31Z) - AccentBox: Towards High-Fidelity Zero-Shot Accent Generation [20.40688498862892]
本稿では、外部アクセント変換(FAC)、アクセント付きTS、ZS-TTSを統一したゼロショットアクセント生成を提案する。
第1段階では、アクセント識別(AID)に関するSOTA(State-of-the-art)を未確認話者に対して0.56f1のスコアで達成する。
第2段階では、AIDモデルにより抽出された事前訓練された話者認識アクセント埋め込みにZS-TTSシステムを適用した。
論文 参考訳(メタデータ) (2024-09-13T06:05:10Z) - Cross-Dialect Text-To-Speech in Pitch-Accent Language Incorporating Multi-Dialect Phoneme-Level BERT [29.167336994990542]
クロス・ディレクト・テキスト・トゥ・スペーチ(CD-TTS)は、非ネイティブ方言における学習された話者の声を合成するタスクである。
本稿では,3つのサブモジュールからなる新しいTSモデルを提案する。
論文 参考訳(メタデータ) (2024-09-11T13:40:27Z) - Controllable Emphasis with zero data for text-to-speech [57.12383531339368]
強調音声を簡易かつ効果的に処理する方法は、強調単語の予測持続時間を増加させることである。
これは自然度を7.3%向上させるスペクトログラム修正手法よりもはるかに優れていることを示し、基準女性のen-US音声に対して、文章中の強調された単語の正しさを40%精度で識別する。
論文 参考訳(メタデータ) (2023-07-13T21:06:23Z) - DSE-TTS: Dual Speaker Embedding for Cross-Lingual Text-to-Speech [30.110058338155675]
話者の音色を正確に保持することが難しいため,言語間テキスト合成 (CTTS) はまだ満足できない。
そこで本研究では,CTTS のための新しい2元話者埋め込み TTS (DSE-TTS) フレームワークを提案する。
両方の埋め込みを組み合わせることで、DSE-TTSは言語間合成において最先端のSANE-TTSよりも著しく優れる。
論文 参考訳(メタデータ) (2023-06-25T06:46:36Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Modelling low-resource accents without accent-specific TTS frontend [4.185844990558149]
本研究は,TTSを持たない話者のアクセントをモデル化することに焦点を当てる。
本稿では,まずターゲットアクセントデータを,音声変換によるドナー音声のように拡張する手法を提案する。
次に、録音データと合成データを組み合わせてマルチスピーカのマルチアクセントTSモデルを訓練し、ターゲットアクセントを生成する。
論文 参考訳(メタデータ) (2023-01-11T18:00:29Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Controllable Accented Text-to-Speech Synthesis [76.80549143755242]
我々は、推論中にアクセントとその強度を制御できるニューラルネットワークTSアーキテクチャを提案する。
これは、明示的な強度制御を伴うアクセント付きTS合成の最初の研究である。
論文 参考訳(メタデータ) (2022-09-22T06:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。