論文の概要: Improving Accent Conversion with Reference Encoder and End-To-End
Text-To-Speech
- arxiv url: http://arxiv.org/abs/2005.09271v1
- Date: Tue, 19 May 2020 08:09:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 14:25:09.057857
- Title: Improving Accent Conversion with Reference Encoder and End-To-End
Text-To-Speech
- Title(参考訳): 参照エンコーダとエンドツーエンドテキスト音声によるアクセント変換の改善
- Authors: Wenjie Li, Benlai Tang, Xiang Yin, Yushi Zhao, Wei Li, Kang Wang, Hao
Huang, Yuxuan Wang, Zejun Ma
- Abstract要約: アクセント変換(AC)は、話者の声の音色を維持しながら、非ネイティブ話者のアクセントをネイティブアクセントに変換する。
本稿では,アクセント変換の適用性の向上と品質向上のためのアプローチを提案する。
- 参考スコア(独自算出の注目度): 23.30022534796909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accent conversion (AC) transforms a non-native speaker's accent into a native
accent while maintaining the speaker's voice timbre. In this paper, we propose
approaches to improving accent conversion applicability, as well as quality.
First of all, we assume no reference speech is available at the conversion
stage, and hence we employ an end-to-end text-to-speech system that is trained
on native speech to generate native reference speech. To improve the quality
and accent of the converted speech, we introduce reference encoders which make
us capable of utilizing multi-source information. This is motivated by acoustic
features extracted from native reference and linguistic information, which are
complementary to conventional phonetic posteriorgrams (PPGs), so they can be
concatenated as features to improve a baseline system based only on PPGs.
Moreover, we optimize model architecture using GMM-based attention instead of
windowed attention to elevate synthesized performance. Experimental results
indicate when the proposed techniques are applied the integrated system
significantly raises the scores of acoustic quality (30$\%$ relative increase
in mean opinion score) and native accent (68$\%$ relative preference) while
retaining the voice identity of the non-native speaker.
- Abstract(参考訳): アクセント変換(AC)は、話者の声の音色を維持しながら、非ネイティブ話者のアクセントをネイティブアクセントに変換する。
本稿では,アクセント変換の適用性の向上と品質向上のためのアプローチを提案する。
まず、変換段階では参照音声が利用できないと仮定し、ネイティブ音声に基づいて訓練されたエンドツーエンドのテキスト音声合成システムを用いて、ネイティブ参照音声を生成する。
変換音声の品質とアクセントを改善するため,マルチソース情報を利用するための参照エンコーダを提案する。
この特徴は,従来の音声後部グラフ(PPG)を補完するネイティブ参照情報や言語情報から抽出した音響的特徴によって動機付けられ,PPGのみに基づくベースラインシステムを改善する特徴としてまとめることができる。
また,合成性能を高めるために,GMMに基づく注意を用いたモデルアーキテクチャを最適化する。
実験結果から,提案手法が適用された場合,非母語話者の音声同一性を維持しつつ,音響品質(平均意見得点の相対的な増加)とネイティブアクセント(68$\%$相対的嗜好)のスコアを大きく上昇させることが示された。
関連論文リスト
- Improving Pronunciation and Accent Conversion through Knowledge Distillation And Synthetic Ground-Truth from Native TTS [52.89324095217975]
アクセント変換に対する従来のアプローチは主に非ネイティブ音声をよりネイティブにすることを目的としていた。
我々は、アクセント変換だけでなく、非ネイティブアクセント話者の発音を改善する新しいACアプローチを開発した。
論文 参考訳(メタデータ) (2024-10-19T06:12:31Z) - Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。
話者の類似度は低く、プロソディの自然度は低い。
本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:42:21Z) - Accent Conversion in Text-To-Speech Using Multi-Level VAE and Adversarial Training [14.323313455208183]
包括的音声技術は、特定のアクセントを持つ人々のような特定のグループに対する偏見を消すことを目的としている。
本稿では,アクセント付き音声合成と変換に逆学習を用いたマルチレベル変分オートエンコーダを用いたTSモデルを提案する。
論文 参考訳(メタデータ) (2024-06-03T05:56:02Z) - Transfer the linguistic representations from TTS to accent conversion
with non-parallel data [7.376032484438044]
アクセント変換は、話者のアイデンティティを保ちながら、ソース音声のアクセントをターゲットアクセントに変換することを目的としている。
本稿ではアクセントに依存しない言語表現を学習するアクセント変換のための新しい非自己回帰フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-07T16:39:34Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Cross-lingual Text-To-Speech with Flow-based Voice Conversion for
Improved Pronunciation [11.336431583289382]
本稿では,エンドツーエンドの言語間テキスト合成手法を提案する。
本来の話者の言語によらず、対象言語の発音を維持することを目的としている。
論文 参考訳(メタデータ) (2022-10-31T12:44:53Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。