論文の概要: Modelling low-resource accents without accent-specific TTS frontend
- arxiv url: http://arxiv.org/abs/2301.04606v1
- Date: Wed, 11 Jan 2023 18:00:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 17:38:14.421124
- Title: Modelling low-resource accents without accent-specific TTS frontend
- Title(参考訳): アクセント特異的ttsフロントエンドを伴わない低リソースアクセントのモデリング
- Authors: Georgi Tinchev, Marta Czarnowska, Kamil Deja, Kayoko Yanagisawa,
Marius Cotescu
- Abstract要約: 本研究は,TTSを持たない話者のアクセントをモデル化することに焦点を当てる。
本稿では,まずターゲットアクセントデータを,音声変換によるドナー音声のように拡張する手法を提案する。
次に、録音データと合成データを組み合わせてマルチスピーカのマルチアクセントTSモデルを訓練し、ターゲットアクセントを生成する。
- 参考スコア(独自算出の注目度): 4.185844990558149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work focuses on modelling a speaker's accent that does not have a
dedicated text-to-speech (TTS) frontend, including a grapheme-to-phoneme (G2P)
module. Prior work on modelling accents assumes a phonetic transcription is
available for the target accent, which might not be the case for low-resource,
regional accents. In our work, we propose an approach whereby we first augment
the target accent data to sound like the donor voice via voice conversion, then
train a multi-speaker multi-accent TTS model on the combination of recordings
and synthetic data, to generate the donor's voice speaking in the target
accent. Throughout the procedure, we use a TTS frontend developed for the same
language but a different accent. We show qualitative and quantitative analysis
where the proposed strategy achieves state-of-the-art results compared to other
generative models. Our work demonstrates that low resource accents can be
modelled with relatively little data and without developing an accent-specific
TTS frontend. Audio samples of our model converting to multiple accents are
available on our web page.
- Abstract(参考訳): 本研究は、G2P(Grapheme-to-phoneme)モジュールを含む、TTS(Text-to-Speech)フロントエンドを持たない話者のアクセントをモデル化することに焦点を当てる。
アクセントのモデル化に関する以前の作業では、ターゲットアクセントに対して音声の書き起こしが利用可能であると仮定しており、低リソースの地域アクセントには当てはまらない。
そこで本研究では,まず,音声変換により対象のアクセントデータをドナー音声のように拡張し,録音データと合成データを組み合わせたマルチスピーカ・マルチアセントTSモデルを訓練し,対象のアクセントの中でドナーの声を生成する手法を提案する。
プロシージャを通して、同じ言語で開発されたTSフロントエンドを使うが、アクセントが異なる。
提案手法が,他の生成モデルと比較して最先端の結果が得られる質的,定量的な分析を行う。
我々の研究は、アクセント固有のTSフロントエンドを開発することなく、低リソースアクセントを比較的少ないデータでモデル化できることを示します。
モデルから複数のアクセントに変換するオーディオサンプルは、私たちのWebページにある。
関連論文リスト
- Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Cross-Dialect Text-To-Speech in Pitch-Accent Language Incorporating Multi-Dialect Phoneme-Level BERT [29.167336994990542]
クロス・ディレクト・テキスト・トゥ・スペーチ(CD-TTS)は、非ネイティブ方言における学習された話者の声を合成するタスクである。
本稿では,3つのサブモジュールからなる新しいTSモデルを提案する。
論文 参考訳(メタデータ) (2024-09-11T13:40:27Z) - Cross-lingual Knowledge Distillation via Flow-based Voice Conversion for
Robust Polyglot Text-To-Speech [6.243356997302935]
本稿では、上流音声変換(VC)モデルと下流音声合成(TTS)モデルを含む、言語間音声合成のためのフレームワークを提案する。
最初の2段階では、VCモデルを用いてターゲット話者の発話をターゲット話者の声に変換する。
第3段階では、変換されたデータは、対象言語における記録からの言語的特徴や持続時間と組み合わせられ、単一話者音響モデルの訓練に使用される。
論文 参考訳(メタデータ) (2023-09-15T09:03:14Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Multilingual Multiaccented Multispeaker TTS with RADTTS [21.234787964238645]
RADTTSに基づく多言語・多言語・多話者音声合成モデルを提案する。
7つのアクセントからなるオープンソースデータセットにおいて、任意の話者に対して合成アクセントを制御する能力を示す。
論文 参考訳(メタデータ) (2023-01-24T22:39:04Z) - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.55131711064935]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。
具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。
Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文 参考訳(メタデータ) (2023-01-05T15:37:15Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Explicit Intensity Control for Accented Text-to-speech [65.35831577398174]
TTSの過程におけるアクセントの強度の制御は、非常に興味深い研究方向である。
近年の作業は、話者とアクセント情報をアンタングルし、そのアクセント強度を制御するために損失重量を調整するために、話者対アダルロスを設計している。
本稿では,アクセント付きTSのための直感的かつ明示的なアクセント強度制御方式を提案する。
論文 参考訳(メタデータ) (2022-10-27T12:23:41Z) - Controllable Accented Text-to-Speech Synthesis [76.80549143755242]
我々は、推論中にアクセントとその強度を制御できるニューラルネットワークTSアーキテクチャを提案する。
これは、明示的な強度制御を伴うアクセント付きTS合成の最初の研究である。
論文 参考訳(メタデータ) (2022-09-22T06:13:07Z) - Low-resource expressive text-to-speech using data augmentation [12.396086122947679]
本稿では,大量のターゲットデータを記録するコストのかかる操作を回避するために,新しい3段階の手法を提案する。
我々は、他の話者からの所望の話し方での録音を活用することで、音声変換によるデータ拡張を行う。
次に、利用可能な録音の上に合成データを使って、TSモデルをトレーニングします。
論文 参考訳(メタデータ) (2020-11-11T11:22:37Z) - AccentDB: A Database of Non-Native English Accents to Assist Neural
Speech Recognition [3.028098724882708]
まず、ロバストなASRシステムのトレーニングとテストのために、非ネイティブアクセントで音声サンプルの精度の高いデータベースを作成するための重要な要件について説明する。
次に、私たちによって収集された4つのインド英語アクセントのサンプルを含む、そのようなデータベースであるAccentDBを紹介します。
アクセント分類モデルをいくつか提示し, アクセントクラスに対して徹底的に評価する。
論文 参考訳(メタデータ) (2020-05-16T12:38:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。