Fugu-MT 論文翻訳(概要): Text-To-Speech Synthesis In The Wild

論文の概要: Text-To-Speech Synthesis In The Wild

arxiv url: http://arxiv.org/abs/2409.08711v1
Date: Fri, 13 Sep 2024 10:58:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-16 16:58:47.410307
Title: Text-To-Speech Synthesis In The Wild
Title（参考訳）: 野生におけるテキスト音声合成
Authors: Jee-weon Jung, Wangyou Zhang, Soumi Maiti, Yihan Wu, Xin Wang, Ji-Hoon Kim, Yuta Matsunaga, Seyun Um, Jinchuan Tian, Hye-jin Shim, Nicholas Evans, Joon Son Chung, Shinnosuke Takamichi, Shinji Watanabe,
Abstract要約: テキスト音声システム(TTS)は、伝統的にスタジオ品質の控えめなデータベースを用いて訓練されている。本稿では,話者認識に一般的に使用されるVoxCeleb1データセットに適用した,完全に自動化されたパイプラインの結果であるTS In the Wild (TITW)データセットを紹介する。我々は、TITW-Easyを用いて、最近の多くのTSモデルをうまくトレーニングできることを示し、TITW-Hardを用いて同様の結果を生成することは極めて困難である。
参考スコア（独自算出の注目度）: 76.71096751337888
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-speech (TTS) systems are traditionally trained using modest databases of studio-quality, prompted or read speech collected in benign acoustic environments such as anechoic rooms. The recent literature nonetheless shows efforts to train TTS systems using data collected in the wild. While this approach allows for the use of massive quantities of natural speech, until now, there are no common datasets. We introduce the TTS In the Wild (TITW) dataset, the result of a fully automated pipeline, in this case, applied to the VoxCeleb1 dataset commonly used for speaker recognition. We further propose two training sets. TITW-Hard is derived from the transcription, segmentation, and selection of VoxCeleb1 source data. TITW-Easy is derived from the additional application of enhancement and additional data selection based on DNSMOS. We show that a number of recent TTS models can be trained successfully using TITW-Easy, but that it remains extremely challenging to produce similar results using TITW-Hard. Both the dataset and protocols are publicly available and support the benchmarking of TTS systems trained using TITW data.
Abstract（参考訳）: テキスト音声システム(TTS)は、伝統的にスタジオ品質の控えめなデータベースを用いて訓練されている。しかしながら、最近の文献では、野生で収集されたデータを使ってTSシステムのトレーニングを行っている。このアプローチは、大量の自然言語を使用できるが、これまでは一般的なデータセットは存在しなかった。本稿では,話者認識に一般的に使用されるVoxCeleb1データセットに適用した,完全自動パイプラインの結果であるTS In the Wild(TITW)データセットを紹介する。さらに2つのトレーニングセットを提案します。 TITW-Hardは、VoxCeleb1ソースデータの転写、セグメンテーション、選択に由来する。 TITW-Easyは、DNSMOSに基づいた拡張と追加データ選択のアプリケーションから派生したものだ。我々は、TITW-Easyを用いて、最近の多くのTSモデルをうまくトレーニングできることを示し、TITW-Hardを用いて同様の結果を生成することは極めて困難である。データセットとプロトコルはいずれも公開されており、TITWデータを使用してトレーニングされたTSシステムのベンチマークをサポートする。

関連論文リスト

Revisiting Direct Speech-to-Text Translation with Speech LLMs: Better Scaling than CoT Prompting? [13.202203902821333]
音声からテキストへの変換(S2TT)データの増加にともなって,Chain-of-Thought(CoT)とDirect prompting(ダイレクトプロンプト)を体系的に比較した。以上の結果から,データ量の増加に伴いDirectはより一貫した改善を行い,より大きなS2TTリソースが生成されるにつれて,より効果的なアプローチになる可能性が示唆された。
論文参考訳（メタデータ） (2025-10-03T15:23:32Z)
NonverbalTTS: A Public English Corpus of Text-Aligned Nonverbal Vocalizations with Emotion Annotations for Text-to-Speech [0.0]
非バーバルTTS(NonverbalTTS、NVTTS)は、10種類のNV(笑い、うず)と8つの感情カテゴリーで注釈付けされた17時間のオープンアクセスデータセットである。自動音声認識(ASR)、NVタグ付け、感情分類、融合アルゴリズムを統合し、複数のアノテータからの書き起こしをマージする包括的パイプラインを提案する。
論文参考訳（メタデータ） (2025-07-17T14:17:40Z)
Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM [48.71951982716363]
テキスト音声合成(TTS)モデルは自動音声認識(ASR)システムを強化するために広く採用されている。我々は,大規模言語モデル(LLM)と高度なゼロショットTSを利用する新しいASRデータ拡張手法であるHard-Synthを提案する。我々のアプローチでは、追加のテキストデータに頼ることなく、書き直しによる多様なドメイン内テキストを生成するためにLLMを用いる。
論文参考訳（メタデータ） (2024-11-20T09:49:37Z)
SpoofCeleb: Speech Deepfake Detection and SASV In The Wild [76.71096751337888]
SpoofCelebは、音声ディープフェイク検出(SDD)とスポフィングロバスト自動話者検証(SASV)のために設計されたデータセットである。我々は,テキスト・トゥ・スペーチ(TTS)システムによって生成された実世界の状況からのソースデータとスプーフィング攻撃を利用して,同じ実世界のデータに基づいて訓練した。 SpoofCelebは、1,251人のユニークな話者による250万以上の発話で構成され、自然界の状況下で収集されている。
論文参考訳（メタデータ） (2024-09-18T23:17:02Z)
Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文参考訳（メタデータ） (2024-06-11T14:17:12Z)
Unsupervised Data Selection for TTS: Using Arabic Broadcast News as a Case Study [44.07589545984369]
本稿では、自動データ選択と事前学習/微調整戦略を含む、TS構築のための完全に教師なしの手法を提案する。我々は,データの選択を慎重に行うことで,TSシステムの効率が向上することを示す。評価の結果,CERは3.9%,CERは1.3%であった。
論文参考訳（メタデータ） (2023-01-22T10:41:58Z)
Generating Synthetic Speech from SpokenVocab for Speech Translation [18.525896864903416]
エンドツーエンドの音声翻訳システムの訓練には十分な大規模データが必要である。 1つの実用的な解決策は、機械翻訳データ(MT)をテキスト音声(TTS)システムを介してSTデータに変換することである。本稿では,MTデータをSTデータにオンザフライで変換する,シンプルでスケーラブルで効果的なデータ拡張手法であるSpkenVocabを提案する。
論文参考訳（メタデータ） (2022-10-15T03:07:44Z)
Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。 3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文参考訳（メタデータ） (2022-06-05T10:50:34Z)
Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文参考訳（メタデータ） (2022-04-06T17:59:22Z)
Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文参考訳（メタデータ） (2021-12-15T18:56:35Z)
ESPnet2-TTS: Extending the Edge of TTS Research [62.92178873052468]
ESPnet2-TTSは、E2E-TTS(E2E-TTS)ツールキットである。新機能としては、オンザフライフレキシブルプリプロセッシング、ニューラルボコーダとのジョイントトレーニング、フルバンドE2Eテキスト・トゥ・ウェーブフォームモデリングのような拡張を備えた最先端のTSモデルなどがある。
論文参考訳（メタデータ） (2021-10-15T03:27:45Z)
KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset [4.542831770689362]
本稿では,世界中の1300万人以上が話す低リソース言語であるKazakhの高品質なオープンソース音声合成データセットについて紹介する。このデータセットは、2人のプロの話者が話した約91時間の録音音声から成り立っている。これは、アカデミックと産業の両方で、カザフスタンのテキスト音声アプリケーションを促進するために開発された、初めて公開された大規模なデータセットである。
論文参考訳（メタデータ） (2021-04-17T05:49:57Z)
Proteno: Text Normalization with Limited Data for Fast Deployment in Text to Speech Systems [15.401574286479546]
新しい言語上でのテキスト音声(TTS)のテキスト正規化(TN)は困難である。そこで本研究では,複数の言語で使用するデータのサイズを3%未満に抑えながら,複数の言語に対応可能な新しいアーキテクチャを提案する。スペイン語とタミル語でTN for TTSの最初の成果を公開し、また、アプローチのパフォーマンスが以前の英語での作業に匹敵することを示した。
論文参考訳（メタデータ） (2021-04-15T21:14:28Z)
Data Processing for Optimizing Naturalness of Vietnamese Text-to-speech System [0.7160601421935839]
そこで本研究では,新しいデータ処理手法を用いてTTSシステムの自然性を最適化することを目的とする。終末RTSが4.1のスコア(MOS)を達成したのに対し、自然言語の4.3は4.1であった。
論文参考訳（メタデータ） (2020-04-20T20:11:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。