論文の概要: CrossSpeech: Speaker-independent Acoustic Representation for
Cross-lingual Speech Synthesis
- arxiv url: http://arxiv.org/abs/2302.14370v1
- Date: Tue, 28 Feb 2023 07:51:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 17:38:15.291460
- Title: CrossSpeech: Speaker-independent Acoustic Representation for
Cross-lingual Speech Synthesis
- Title(参考訳): CrossSpeech: 言語間音声合成のための話者非依存音響表現
- Authors: Ji-Hoon Kim, Hong-Sun Yang, Yoon-Cheol Ju, Il-Hwan Kim, and
Byeong-Yeol Kim
- Abstract要約: CrossSpeechは、話者と言語情報を効果的に切り離すことで、言語間音声の品質を向上させる。
実験により,CrossSpeechが言語間TSの大幅な改善を実現することを確認した。
- 参考スコア(独自算出の注目度): 7.6883773606941075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent text-to-speech (TTS) systems have made remarkable strides toward
human-level quality, the performance of cross-lingual TTS lags behind that of
intra-lingual TTS. This gap is mainly rooted from the speaker-language
entanglement problem in cross-lingual TTS. In this paper, we propose
CrossSpeech which improves the quality of cross-lingual speech by effectively
disentangling speaker and language information in the level of acoustic feature
space. Specifically, CrossSpeech decomposes the speech generation pipeline into
the speaker-independent generator (SIG) and speaker-dependent generator (SDG).
The SIG produces the speaker-independent acoustic representation which is not
biased to specific speaker distributions. On the other hand, the SDG models
speaker-dependent speech variation that characterizes speaker attributes. By
handling each information separately, CrossSpeech can obtain disentangled
speaker and language representations. From the experiments, we verify that
CrossSpeech achieves significant improvements in cross-lingual TTS, especially
in terms of speaker similarity to the target speaker.
- Abstract(参考訳): 最近のTTS(text-to-speech)システムは、人間のレベル品質に顕著な一歩を踏み出したが、言語内TSよりも遅れた言語間TSラグの性能は向上した。
このギャップは主に、言語間TSにおける話者言語絡みの問題に根ざしている。
本稿では,音声特徴量レベルで話者と言語情報を効果的に分離することにより,言語間音声の質を向上させるクロスペアを提案する。
具体的には、CrossSpeechは音声生成パイプラインを話者非依存ジェネレータ(SIG)と話者依存ジェネレータ(SDG)に分解する。
SIGは、特定の話者分布に偏らない話者非依存の音響表現を生成する。
一方、SDGは話者属性を特徴付ける話者依存型音声変化をモデル化する。
各情報を別々に扱うことで、CrossSpeechは不整合話者と言語表現を得ることができる。
実験により,CrossSpeechは,特に話者の話者類似性において,言語間TSの大幅な改善を実現していることを確認した。
関連論文リスト
- Investigation of Speaker Representation for Target-Speaker Speech Processing [49.110228525976794]
本論文は,目標話者音声処理タスクに好まれる話者埋め込みとは何か,という根本的な問題に対処することを目的としている。
TS-ASR, TSE, p-VADタスクでは, 対象話者の事前録音音声からの話者埋め込みを, 対象話者の同一性から直接1ホットベクトルの形で計算する事前学習話者エンコーダを比較した。
分析の結果,話者検証性能はTSタスク性能とは多少無関係であり,一ホットベクトルは入学者ベースよりも優れており,最適埋め込みは入力混合に依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-15T03:58:13Z) - DisfluencySpeech -- Single-Speaker Conversational Speech Dataset with Paralanguage [7.096838107088313]
DisfluencySpeechは、パラ言語でラベル付けされた英語の音声データセットである。
Switchboard-1 電話音声コーパス(Switchboard)から10時間近い表現的発話を再現する1つの話者
論文 参考訳(メタデータ) (2024-06-13T05:23:22Z) - DSE-TTS: Dual Speaker Embedding for Cross-Lingual Text-to-Speech [30.110058338155675]
話者の音色を正確に保持することが難しいため,言語間テキスト合成 (CTTS) はまだ満足できない。
そこで本研究では,CTTS のための新しい2元話者埋め込み TTS (DSE-TTS) フレームワークを提案する。
両方の埋め込みを組み合わせることで、DSE-TTSは言語間合成において最先端のSANE-TTSよりも著しく優れる。
論文 参考訳(メタデータ) (2023-06-25T06:46:36Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Cross-lingual Text-To-Speech with Flow-based Voice Conversion for
Improved Pronunciation [11.336431583289382]
本稿では,エンドツーエンドの言語間テキスト合成手法を提案する。
本来の話者の言語によらず、対象言語の発音を維持することを目的としている。
論文 参考訳(メタデータ) (2022-10-31T12:44:53Z) - AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios [143.47967241972995]
高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。
話者特性を体系的にモデル化し、新しい話者の一般化を改善する。
微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
論文 参考訳(メタデータ) (2022-04-01T13:47:44Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Speaker Separation Using Speaker Inventories and Estimated Speech [78.57067876891253]
話者在庫(SSUSI)と推定音声(SSUES)を用いた話者分離を提案する。
置換不変訓練(PIT)と音声抽出の利点を組み合わせることで、SSUSIは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-20T18:15:45Z) - Latent linguistic embedding for cross-lingual text-to-speech and voice
conversion [44.700803634034486]
言語間音声生成は、話者が話さない言語において、ターゲット話者の声で発話が生成されるシナリオである。
提案手法は, 話者類似度の高い多言語VCを生成するだけでなく, 余分なステップを踏むことなく, TTSをシームレスに利用できることを示す。
論文 参考訳(メタデータ) (2020-10-08T01:25:07Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。