論文の概要: Text-To-Speech Synthesis In The Wild
- arxiv url: http://arxiv.org/abs/2409.08711v2
- Date: Sun, 01 Jun 2025 09:29:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 20:53:52.943768
- Title: Text-To-Speech Synthesis In The Wild
- Title(参考訳): 野生におけるテキスト音声合成
- Authors: Jee-weon Jung, Wangyou Zhang, Soumi Maiti, Yihan Wu, Xin Wang, Ji-Hoon Kim, Yuta Matsunaga, Seyun Um, Jinchuan Tian, Hye-jin Shim, Nicholas Evans, Joon Son Chung, Shinnosuke Takamichi, Shinji Watanabe,
- Abstract要約: 我々は、VoxCeleb1データセットに適用された完全に自動化されたパイプラインを通じて生成されるTS In the Wildデータセットを紹介します。
TITW-Hardは、生のVoxCeleb1データの転写、セグメンテーション、選択から派生したTITW-Hardと、DNSMOSに基づいたさらなる拡張とデータ選択を含むTITW-Easyの2つのトレーニングセットで構成されている。
- 参考スコア(独自算出の注目度): 76.71096751337888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional Text-to-Speech (TTS) systems rely on studio-quality speech recorded in controlled settings.a Recently, an effort known as noisy-TTS training has emerged, aiming to utilize in-the-wild data. However, the lack of dedicated datasets has been a significant limitation. We introduce the TTS In the Wild (TITW) dataset, which is publicly available, created through a fully automated pipeline applied to the VoxCeleb1 dataset. It comprises two training sets: TITW-Hard, derived from the transcription, segmentation, and selection of raw VoxCeleb1 data, and TITW-Easy, which incorporates additional enhancement and data selection based on DNSMOS. State-of-the-art TTS models achieve over 3.0 UTMOS score with TITW-Easy, while TITW-Hard remains difficult showing UTMOS below 2.8.
- Abstract(参考訳): 従来のテクスト・トゥ・スピーチ(TTS)システムは、制御された設定で録音されたスタジオ品質の音声に頼っている。
しかし、専用のデータセットの欠如は、重大な制限であった。
我々はTTS In the Wild(TITW)データセットを紹介し、VoxCeleb1データセットに適用される完全に自動化されたパイプラインを通じて、公開されている。
TITW-Hardは、生のVoxCeleb1データの転写、セグメンテーション、選択から派生したTITW-Hardと、DNSMOSに基づいたさらなる拡張とデータ選択を含むTITW-Easyの2つのトレーニングセットで構成されている。
最先端のTSモデルはTITW-Easyで3.0 UTMOSスコアを達成しているが、TITW-Hardは2.8以下である。
関連論文リスト
- Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM [48.71951982716363]
テキスト音声合成(TTS)モデルは自動音声認識(ASR)システムを強化するために広く採用されている。
我々は,大規模言語モデル(LLM)と高度なゼロショットTSを利用する新しいASRデータ拡張手法であるHard-Synthを提案する。
我々のアプローチでは、追加のテキストデータに頼ることなく、書き直しによる多様なドメイン内テキストを生成するためにLLMを用いる。
論文 参考訳(メタデータ) (2024-11-20T09:49:37Z) - SpoofCeleb: Speech Deepfake Detection and SASV In The Wild [76.71096751337888]
SpoofCelebは、音声ディープフェイク検出(SDD)とスポフィングロバスト自動話者検証(SASV)のために設計されたデータセットである。
我々は,テキスト・トゥ・スペーチ(TTS)システムによって生成された実世界の状況からのソースデータとスプーフィング攻撃を利用して,同じ実世界のデータに基づいて訓練した。
SpoofCelebは、1,251人のユニークな話者による250万以上の発話で構成され、自然界の状況下で収集されている。
論文 参考訳(メタデータ) (2024-09-18T23:17:02Z) - Generating Synthetic Speech from SpokenVocab for Speech Translation [18.525896864903416]
エンドツーエンドの音声翻訳システムの訓練には十分な大規模データが必要である。
1つの実用的な解決策は、機械翻訳データ(MT)をテキスト音声(TTS)システムを介してSTデータに変換することである。
本稿では,MTデータをSTデータにオンザフライで変換する,シンプルでスケーラブルで効果的なデータ拡張手法であるSpkenVocabを提案する。
論文 参考訳(メタデータ) (2022-10-15T03:07:44Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Proteno: Text Normalization with Limited Data for Fast Deployment in
Text to Speech Systems [15.401574286479546]
新しい言語上でのテキスト音声(TTS)のテキスト正規化(TN)は困難である。
そこで本研究では,複数の言語で使用するデータのサイズを3%未満に抑えながら,複数の言語に対応可能な新しいアーキテクチャを提案する。
スペイン語とタミル語でTN for TTSの最初の成果を公開し、また、アプローチのパフォーマンスが以前の英語での作業に匹敵することを示した。
論文 参考訳(メタデータ) (2021-04-15T21:14:28Z) - Data Processing for Optimizing Naturalness of Vietnamese Text-to-speech
System [0.7160601421935839]
そこで本研究では,新しいデータ処理手法を用いてTTSシステムの自然性を最適化することを目的とする。
終末RTSが4.1のスコア(MOS)を達成したのに対し、自然言語の4.3は4.1であった。
論文 参考訳(メタデータ) (2020-04-20T20:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。