Fugu-MT 論文翻訳(概要): Multilingual Multiaccented Multispeaker TTS with RADTTS

論文の概要: Multilingual Multiaccented Multispeaker TTS with RADTTS

arxiv url: http://arxiv.org/abs/2301.10335v1
Date: Tue, 24 Jan 2023 22:39:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-26 16:24:47.529331
Title: Multilingual Multiaccented Multispeaker TTS with RADTTS
Title（参考訳）: RADTTSを用いた多言語多言語マルチスピーカTS
Authors: Rohan Badlani, Rafael Valle, Kevin J. Shih, Jo\~ao Felipe Santos, Siddharth Gururani, Bryan Catanzaro
Abstract要約: RADTTSに基づく多言語・多言語・多話者音声合成モデルを提案する。 7つのアクセントからなるオープンソースデータセットにおいて、任意の話者に対して合成アクセントを制御する能力を示す。
参考スコア（独自算出の注目度）: 21.234787964238645
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We work to create a multilingual speech synthesis system which can generate speech with the proper accent while retaining the characteristics of an individual voice. This is challenging to do because it is expensive to obtain bilingual training data in multiple languages, and the lack of such data results in strong correlations that entangle speaker, language, and accent, resulting in poor transfer capabilities. To overcome this, we present a multilingual, multiaccented, multispeaker speech synthesis model based on RADTTS with explicit control over accent, language, speaker and fine-grained $F_0$ and energy features. Our proposed model does not rely on bilingual training data. We demonstrate an ability to control synthesized accent for any speaker in an open-source dataset comprising of 7 accents. Human subjective evaluation demonstrates that our model can better retain a speaker's voice and accent quality than controlled baselines while synthesizing fluent speech in all target languages and accents in our dataset.
Abstract（参考訳）: 我々は,個々の音声の特徴を維持しつつ,適切なアクセントで音声を生成する多言語音声合成システムの構築に取り組んでいる。これは、複数の言語でバイリンガルトレーニングデータを取得するのが高価であり、そのようなデータが欠如すると、話者、言語、アクセントが絡み合う強い相関関係が生まれ、転送能力が低下するからである。これを解決するために、アクセント、言語、話者、きめ細かい$F_0$およびエネルギー特徴を明示的に制御したRADTTSに基づく多言語多話者音声合成モデルを提案する。提案モデルはバイリンガル学習データに依存しない。 7つのアクセントからなるオープンソースのデータセットにおいて、任意の話者の合成アクセントを制御する能力を示す。人間の主観的評価は、我々のモデルがコントロールされたベースラインよりも話者の声とアクセントの質を保ちつつ、すべてのターゲット言語とデータセットのアクセントで流行った音声を合成できることを示しています。

関連論文リスト

CrossSpeech++: Cross-lingual Speech Synthesis with Decoupled Language and Speaker Generation [25.82932373649325]
CrossSpeech++は、言語と話者情報をアンタングルする方法である。これにより、言語間音声合成の品質が大幅に向上する。さまざまなメトリクスを使って広範な実験を行い、CrossSpeech++が大幅な改善を実現していることを示す。
論文参考訳（メタデータ） (2024-12-28T06:32:49Z)
Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文参考訳（メタデータ） (2024-09-30T19:52:10Z)
Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文参考訳（メタデータ） (2024-09-17T08:36:45Z)
MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文参考訳（メタデータ） (2023-05-19T13:43:36Z)
ParrotTTS: Text-to-Speech synthesis by exploiting self-supervised representations [27.157701195636477]
ParrotTTSは、モジュール化されたテキスト音声合成モデルである。単一の話者からの書き起こしを使って、効果的にマルチスピーカーの変種を訓練することができる。低リソース設定で新しい言語に適応し、自己管理バックボーンのトレーニング中に見えない言語に一般化する。
論文参考訳（メタデータ） (2023-03-01T17:23:12Z)
ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-11-07T13:35:16Z)
Low-Resource Multilingual and Zero-Shot Multispeaker TTS [25.707717591185386]
5分間のトレーニングデータを用いて,新しい言語を学習することが可能であることを示す。提案手法を,対象話者との親密性,自然性,類似性の観点から示す。
論文参考訳（メタデータ） (2022-10-21T20:03:37Z)
Cross-lingual Transfer for Speech Processing using Acoustic Language Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文参考訳（メタデータ） (2021-11-02T01:55:17Z)
Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文参考訳（メタデータ） (2020-05-21T03:03:34Z)
That Sounds Familiar: an Analysis of Phonetic Representations Transfer Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文参考訳（メタデータ） (2020-05-16T22:28:09Z)
Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文参考訳（メタデータ） (2020-05-16T15:47:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。