論文の概要: Multi-speaker Text-to-speech Training with Speaker Anonymized Data
- arxiv url: http://arxiv.org/abs/2405.11767v1
- Date: Mon, 20 May 2024 03:55:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 14:13:43.659740
- Title: Multi-speaker Text-to-speech Training with Speaker Anonymized Data
- Title(参考訳): 話者匿名化データを用いた多話者テキスト音声訓練
- Authors: Wen-Chin Huang, Yi-Chiao Wu, Tomoki Toda,
- Abstract要約: 話者匿名化(SA)を行ったデータを用いたマルチ話者テキスト音声(TTS)モデルの訓練について検討する。
2つの信号処理ベースと3つのディープニューラルネットワークベースSAメソッドを使用して、マルチスピーカーTSデータセットであるVCTKを匿名化した。
我々は、匿名化されたトレーニングデータと、これらのデータを用いてトレーニングされた下流TSモデルの性能を評価するために、広範囲な客観的および主観的な実験を行った。
- 参考スコア(独自算出の注目度): 40.70515431989197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The trend of scaling up speech generation models poses a threat of biometric information leakage of the identities of the voices in the training data, raising privacy and security concerns. In this paper, we investigate training multi-speaker text-to-speech (TTS) models using data that underwent speaker anonymization (SA), a process that tends to hide the speaker identity of the input speech while maintaining other attributes. Two signal processing-based and three deep neural network-based SA methods were used to anonymize VCTK, a multi-speaker TTS dataset, which is further used to train an end-to-end TTS model, VITS, to perform unseen speaker TTS during the testing phase. We conducted extensive objective and subjective experiments to evaluate the anonymized training data, as well as the performance of the downstream TTS model trained using those data. Importantly, we found that UTMOS, a data-driven subjective rating predictor model, and GVD, a metric that measures the gain of voice distinctiveness, are good indicators of the downstream TTS performance. We summarize insights in the hope of helping future researchers determine the goodness of the SA system for multi-speaker TTS training.
- Abstract(参考訳): 音声生成モデルのスケールアップのトレンドは、トレーニングデータにおける音声のアイデンティティのバイオメトリック情報漏洩の脅威となり、プライバシとセキュリティ上の懸念が高まる。
本稿では,他の属性を維持しつつ入力音声の話者識別を隠蔽するプロセスである話者匿名化(SA)を行ったデータを用いて,マルチ話者テキスト音声(TTS)モデルの訓練を行う。
2つの信号処理ベースと3つのディープニューラルネットワークベースのSAメソッドを使用して、テストフェーズ中に未確認の話者TSを実行するために、エンドツーエンドのTSモデルであるVITSをトレーニングするために、マルチスピーカーTSデータセットであるVCTKを匿名化した。
我々は、匿名化されたトレーニングデータと、これらのデータを用いてトレーニングされた下流TSモデルの性能を評価するために、広範囲な客観的および主観的な実験を行った。
重要なことは、データ駆動型主観的評価予測モデルであるUTMOSと、声質の利得を測定する指標であるGVDが、ダウンストリームTS性能のよい指標であることが判明した。
我々は、将来の研究者がマルチスピーカーTTSトレーニングにおけるSAシステムの良否を判断するのに役立つと期待する見解を要約する。
関連論文リスト
- SpoofCeleb: Speech Deepfake Detection and SASV In The Wild [76.71096751337888]
SpoofCelebは、音声ディープフェイク検出(SDD)とスポフィングロバスト自動話者検証(SASV)のために設計されたデータセットである。
我々は,テキスト・トゥ・スペーチ(TTS)システムによって生成された実世界の状況からのソースデータとスプーフィング攻撃を利用して,同じ実世界のデータに基づいて訓練した。
SpoofCelebは、1,251人のユニークな話者による250万以上の発話で構成され、自然界の状況下で収集されている。
論文 参考訳(メタデータ) (2024-09-18T23:17:02Z) - Cross-Dialect Text-To-Speech in Pitch-Accent Language Incorporating Multi-Dialect Phoneme-Level BERT [29.167336994990542]
クロス・ディレクト・テキスト・トゥ・スペーチ(CD-TTS)は、非ネイティブ方言における学習された話者の声を合成するタスクである。
本稿では,3つのサブモジュールからなる新しいTSモデルを提案する。
論文 参考訳(メタデータ) (2024-09-11T13:40:27Z) - Application of ASV for Voice Identification after VC and Duration Predictor Improvement in TTS Models [0.0]
本稿では,自動話者検証システムを提案する。
本モデルの主な目的は,対象話者の音声から埋め込みを抽出することである。
この情報は、現在開発中のマルチボイスTSパイプラインで使用されます。
論文 参考訳(メタデータ) (2024-06-27T15:08:51Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Adapting TTS models For New Speakers using Transfer Learning [12.46931609726818]
新しい話者のためのニューラルテキスト音声(TTS)モデルのトレーニングは通常、数時間の高品質な音声データを必要とする。
本稿では,数分間の音声データを用いて,高品質な単一話者TSモデルを新しい話者に適用するための伝達学習ガイドラインを提案する。
論文 参考訳(メタデータ) (2021-10-12T07:51:25Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。