論文の概要: Controllable Accented Text-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2209.10804v1
- Date: Thu, 22 Sep 2022 06:13:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 14:08:03.663480
- Title: Controllable Accented Text-to-Speech Synthesis
- Title(参考訳): 制御可能なアクセントテキスト音声合成
- Authors: Rui Liu, Berrak Sisman, Guanglai Gao, Haizhou Li
- Abstract要約: 我々は、推論中にアクセントとその強度を制御できるニューラルネットワークTSアーキテクチャを提案する。
これは、明示的な強度制御を伴うアクセント付きTS合成の最初の研究である。
- 参考スコア(独自算出の注目度): 76.80549143755242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accented text-to-speech (TTS) synthesis seeks to generate speech with an
accent (L2) as a variant of the standard version (L1). Accented TTS synthesis
is challenging as L2 is different from L1 in both in terms of phonetic
rendering and prosody pattern. Furthermore, there is no easy solution to the
control of the accent intensity in an utterance. In this work, we propose a
neural TTS architecture, that allows us to control the accent and its intensity
during inference. This is achieved through three novel mechanisms, 1) an accent
variance adaptor to model the complex accent variance with three prosody
controlling factors, namely pitch, energy and duration; 2) an accent intensity
modeling strategy to quantify the accent intensity; 3) a consistency constraint
module to encourage the TTS system to render the expected accent intensity at a
fine level. Experiments show that the proposed system attains superior
performance to the baseline models in terms of accent rendering and intensity
control. To our best knowledge, this is the first study of accented TTS
synthesis with explicit intensity control.
- Abstract(参考訳): accented text-to-speech (tts) 合成は、標準バージョン (l1) の変種としてアクセント (l2) を持つ音声を生成する。
音韻レンダリングと韻律パターンの両方においてL2がL1とは異なるため、TS合成の上昇は困難である。
また、発話中のアクセント強度の制御に対する簡単な解決策はない。
本研究では、推論中にアクセントとその強度を制御できるニューラルネットワークTSアーキテクチャを提案する。
これは3つの新しいメカニズムによって達成される。
1)アクセント分散適応器は,ピッチ,エネルギー,持続時間という3つの韻律制御因子により,複雑なアクセント分散をモデル化する。
2)アクセント強度を定量化するアクセント強度モデリング戦略
3) TTSシステムに期待するアクセント強度を微細なレベルでレンダリングさせるための一貫性制約モジュール。
実験により,提案システムはアクセントレンダリングと強度制御の観点から,ベースラインモデルよりも優れた性能が得られることが示された。
我々の知る限り、これは明示的な強度制御を伴うアクセント付きTS合成の最初の研究である。
関連論文リスト
- AccentBox: Towards High-Fidelity Zero-Shot Accent Generation [20.40688498862892]
本稿では、外部アクセント変換(FAC)、アクセント付きTS、ZS-TTSを統一したゼロショットアクセント生成を提案する。
第1段階では、アクセント識別(AID)に関するSOTA(State-of-the-art)を未確認話者に対して0.56f1のスコアで達成する。
第2段階では、AIDモデルにより抽出された事前訓練された話者認識アクセント埋め込みにZS-TTSシステムを適用した。
論文 参考訳(メタデータ) (2024-09-13T06:05:10Z) - Cross-Dialect Text-To-Speech in Pitch-Accent Language Incorporating Multi-Dialect Phoneme-Level BERT [29.167336994990542]
クロス・ディレクト・テキスト・トゥ・スペーチ(CD-TTS)は、非ネイティブ方言における学習された話者の声を合成するタスクである。
本稿では,3つのサブモジュールからなる新しいTSモデルを提案する。
論文 参考訳(メタデータ) (2024-09-11T13:40:27Z) - Accent Conversion in Text-To-Speech Using Multi-Level VAE and Adversarial Training [14.323313455208183]
包括的音声技術は、特定のアクセントを持つ人々のような特定のグループに対する偏見を消すことを目的としている。
本稿では,アクセント付き音声合成と変換に逆学習を用いたマルチレベル変分オートエンコーダを用いたTSモデルを提案する。
論文 参考訳(メタデータ) (2024-06-03T05:56:02Z) - NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models [127.47252277138708]
ゼロショット方式で自然な音声を生成するために,分解拡散モデルを備えたTSSシステムであるNaturalSpeech 3を提案する。
具体的には、分解ベクトル量子化(FVQ)を用いて、音声波形をコンテンツ、韻律、音色、音響的詳細の部分空間に分解する。
実験により、NaturalSpeech 3は、品質、類似性、韻律、知性において最先端のTSSシステムより優れていることが示された。
論文 参考訳(メタデータ) (2024-03-05T16:35:25Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Explicit Intensity Control for Accented Text-to-speech [65.35831577398174]
TTSの過程におけるアクセントの強度の制御は、非常に興味深い研究方向である。
近年の作業は、話者とアクセント情報をアンタングルし、そのアクセント強度を制御するために損失重量を調整するために、話者対アダルロスを設計している。
本稿では,アクセント付きTSのための直感的かつ明示的なアクセント強度制御方式を提案する。
論文 参考訳(メタデータ) (2022-10-27T12:23:41Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Emphasis control for parallel neural TTS [8.039245267912511]
音声信号によって伝達される意味情報は、韻律の局所的な変化に強く影響される。
近年のパラレル・ニューラルテキスト・トゥ・音声(TTS)法は,高性能を維持しつつ高い忠実度で音声を生成することができる。
本稿では,重心変化に対応する潜在空間を学習することにより,韻律強調制御のための階層型並列型ニューラルネットワークTSシステムを提案する。
論文 参考訳(メタデータ) (2021-10-06T18:45:39Z) - AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style [111.89762723159677]
AdaSpeech 3 は,順応性のある TTS システムである。
AdaSpeech 3は自然なFPとリズムを自発的なスタイルで合成し、従来の適応TSシステムよりもずっと優れたMOSとSMOSスコアを達成する。
論文 参考訳(メタデータ) (2021-07-06T10:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。