論文の概要: Text-To-Speech Synthesis In The Wild
- arxiv url: http://arxiv.org/abs/2409.08711v1
- Date: Fri, 13 Sep 2024 10:58:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 16:58:47.410307
- Title: Text-To-Speech Synthesis In The Wild
- Title(参考訳): 野生におけるテキスト音声合成
- Authors: Jee-weon Jung, Wangyou Zhang, Soumi Maiti, Yihan Wu, Xin Wang, Ji-Hoon Kim, Yuta Matsunaga, Seyun Um, Jinchuan Tian, Hye-jin Shim, Nicholas Evans, Joon Son Chung, Shinnosuke Takamichi, Shinji Watanabe,
- Abstract要約: テキスト音声システム(TTS)は、伝統的にスタジオ品質の控えめなデータベースを用いて訓練されている。
本稿では,話者認識に一般的に使用されるVoxCeleb1データセットに適用した,完全に自動化されたパイプラインの結果であるTS In the Wild (TITW)データセットを紹介する。
我々は、TITW-Easyを用いて、最近の多くのTSモデルをうまくトレーニングできることを示し、TITW-Hardを用いて同様の結果を生成することは極めて困難である。
- 参考スコア(独自算出の注目度): 76.71096751337888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-speech (TTS) systems are traditionally trained using modest databases of studio-quality, prompted or read speech collected in benign acoustic environments such as anechoic rooms. The recent literature nonetheless shows efforts to train TTS systems using data collected in the wild. While this approach allows for the use of massive quantities of natural speech, until now, there are no common datasets. We introduce the TTS In the Wild (TITW) dataset, the result of a fully automated pipeline, in this case, applied to the VoxCeleb1 dataset commonly used for speaker recognition. We further propose two training sets. TITW-Hard is derived from the transcription, segmentation, and selection of VoxCeleb1 source data. TITW-Easy is derived from the additional application of enhancement and additional data selection based on DNSMOS. We show that a number of recent TTS models can be trained successfully using TITW-Easy, but that it remains extremely challenging to produce similar results using TITW-Hard. Both the dataset and protocols are publicly available and support the benchmarking of TTS systems trained using TITW data.
- Abstract(参考訳): テキスト音声システム(TTS)は、伝統的にスタジオ品質の控えめなデータベースを用いて訓練されている。
しかしながら、最近の文献では、野生で収集されたデータを使ってTSシステムのトレーニングを行っている。
このアプローチは、大量の自然言語を使用できるが、これまでは一般的なデータセットは存在しなかった。
本稿では,話者認識に一般的に使用されるVoxCeleb1データセットに適用した,完全自動パイプラインの結果であるTS In the Wild(TITW)データセットを紹介する。
さらに2つのトレーニングセットを提案します。
TITW-Hardは、VoxCeleb1ソースデータの転写、セグメンテーション、選択に由来する。
TITW-Easyは、DNSMOSに基づいた拡張と追加データ選択のアプリケーションから派生したものだ。
我々は、TITW-Easyを用いて、最近の多くのTSモデルをうまくトレーニングできることを示し、TITW-Hardを用いて同様の結果を生成することは極めて困難である。
データセットとプロトコルはいずれも公開されており、TITWデータを使用してトレーニングされたTSシステムのベンチマークをサポートする。
関連論文リスト
- Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM [48.71951982716363]
テキスト音声合成(TTS)モデルは自動音声認識(ASR)システムを強化するために広く採用されている。
我々は,大規模言語モデル(LLM)と高度なゼロショットTSを利用する新しいASRデータ拡張手法であるHard-Synthを提案する。
我々のアプローチでは、追加のテキストデータに頼ることなく、書き直しによる多様なドメイン内テキストを生成するためにLLMを用いる。
論文 参考訳(メタデータ) (2024-11-20T09:49:37Z) - SpoofCeleb: Speech Deepfake Detection and SASV In The Wild [76.71096751337888]
SpoofCelebは、音声ディープフェイク検出(SDD)とスポフィングロバスト自動話者検証(SASV)のために設計されたデータセットである。
我々は,テキスト・トゥ・スペーチ(TTS)システムによって生成された実世界の状況からのソースデータとスプーフィング攻撃を利用して,同じ実世界のデータに基づいて訓練した。
SpoofCelebは、1,251人のユニークな話者による250万以上の発話で構成され、自然界の状況下で収集されている。
論文 参考訳(メタデータ) (2024-09-18T23:17:02Z) - Generating Synthetic Speech from SpokenVocab for Speech Translation [18.525896864903416]
エンドツーエンドの音声翻訳システムの訓練には十分な大規模データが必要である。
1つの実用的な解決策は、機械翻訳データ(MT)をテキスト音声(TTS)システムを介してSTデータに変換することである。
本稿では,MTデータをSTデータにオンザフライで変換する,シンプルでスケーラブルで効果的なデータ拡張手法であるSpkenVocabを提案する。
論文 参考訳(メタデータ) (2022-10-15T03:07:44Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Proteno: Text Normalization with Limited Data for Fast Deployment in
Text to Speech Systems [15.401574286479546]
新しい言語上でのテキスト音声(TTS)のテキスト正規化(TN)は困難である。
そこで本研究では,複数の言語で使用するデータのサイズを3%未満に抑えながら,複数の言語に対応可能な新しいアーキテクチャを提案する。
スペイン語とタミル語でTN for TTSの最初の成果を公開し、また、アプローチのパフォーマンスが以前の英語での作業に匹敵することを示した。
論文 参考訳(メタデータ) (2021-04-15T21:14:28Z) - Data Processing for Optimizing Naturalness of Vietnamese Text-to-speech
System [0.7160601421935839]
そこで本研究では,新しいデータ処理手法を用いてTTSシステムの自然性を最適化することを目的とする。
終末RTSが4.1のスコア(MOS)を達成したのに対し、自然言語の4.3は4.1であった。
論文 参考訳(メタデータ) (2020-04-20T20:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。