Fugu-MT 論文翻訳(概要): An Automated End-to-End Open-Source Software for High-Quality Text-to-Speech Dataset Generation

論文の概要: An Automated End-to-End Open-Source Software for High-Quality Text-to-Speech Dataset Generation

arxiv url: http://arxiv.org/abs/2402.16380v1
Date: Mon, 26 Feb 2024 07:58:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 14:17:52.476851
Title: An Automated End-to-End Open-Source Software for High-Quality Text-to-Speech Dataset Generation
Title（参考訳）: 高品質テキスト音声データセット生成のためのエンドツーエンドオープンソースソフトウェア
Authors: Ahmet Gunduz, Kamer Ali Yuksel, Kareem Darwish, Golara Javadi, Fabio Minazzi, Nicola Sobieski and Sebastien Bratieres
Abstract要約: 本稿では,テキスト音声(TTS)モデルのための高品質なデータセットを生成するエンドツーエンドツールを提案する。言語固有の音素分布をサンプル選択に統合する。提案するアプリケーションは,これらの機能を通じて,TSモデルのデータセット作成プロセスを合理化することを目的としている。
参考スコア（独自算出の注目度）: 3.6893151241749966
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Data availability is crucial for advancing artificial intelligence applications, including voice-based technologies. As content creation, particularly in social media, experiences increasing demand, translation and text-to-speech (TTS) technologies have become essential tools. Notably, the performance of these TTS technologies is highly dependent on the quality of the training data, emphasizing the mutual dependence of data availability and technological progress. This paper introduces an end-to-end tool to generate high-quality datasets for text-to-speech (TTS) models to address this critical need for high-quality data. The contributions of this work are manifold and include: the integration of language-specific phoneme distribution into sample selection, automation of the recording process, automated and human-in-the-loop quality assurance of recordings, and processing of recordings to meet specified formats. The proposed application aims to streamline the dataset creation process for TTS models through these features, thereby facilitating advancements in voice-based technologies.
Abstract（参考訳）: データ可用性は、音声ベースの技術を含む人工知能アプリケーションの発展に不可欠である。コンテンツ制作、特にソーシャルメディアでは、需要の増加、翻訳、テキスト音声(TTS)技術が重要なツールとなっている。特に、これらのTS技術の性能はトレーニングデータの質に大きく依存しており、データの可用性と技術進歩の相互依存を強調している。本稿では,テキスト音声(TTS)モデルの高品質なデータセットを生成するためのエンドツーエンドツールを提案する。この研究の貢献は、言語固有の音素分布をサンプル選択に統合すること、記録プロセスの自動化、記録の自動化とループ内品質保証、特定のフォーマットを満たすための記録の処理である。提案するアプリケーションは,ttsモデルのデータセット生成プロセスの合理化を目的とし,音声ベースの技術の進歩を促進する。

関連論文リスト

SpeechWeave: Diverse Multilingual Synthetic Text & Audio Data Generation Pipeline for Training Text to Speech Models [1.7012324714448024]
SpeechWeaveは、TSモデルをトレーニングするための多言語、ドメイン固有のデータセットの自動生成が可能な合成音声データ生成パイプラインである。我々のアプローチは、TSトレーニングのためのスケーラブルで高品質なデータ生成を可能にし、生成されたデータセットの多様性、正規化、音声一貫性を改善します。
論文参考訳（メタデータ） (2025-09-15T15:11:43Z)
Empowering Global Voices: A Data-Efficient, Phoneme-Tone Adaptive Approach to High-Fidelity Speech Synthesis [5.283520143851873]
本稿では,データ最適化フレームワークと高度な音響モデルを統合し,高品質なTTSシステムを構築する手法を提案する。本稿では,タイ語を実例として,複雑な音声規則とスパースリソースを効果的に扱う手法の有効性を実証する。
論文参考訳（メタデータ） (2025-04-10T15:32:57Z)
Generative Data Augmentation Challenge: Zero-Shot Speech Synthesis for Personalized Speech Enhancement [54.51467153859695]
本稿では、下流タスクのための音声データ、パーソナライズされた音声強調(PSE)を強化するために、ゼロショット音声合成(TTS)システムを要求する新しい課題を提案する。ゼロショットTSモデルによって生成された拡張データの質がPSEモデルの性能にどのように影響するかを検討することを目的とする。
論文参考訳（メタデータ） (2025-01-23T04:27:37Z)
Unsupervised Data Validation Methods for Efficient Model Training [0.0]
自然言語処理(NLP)、テキスト音声処理(TTS)、音声テキスト処理(STT)、視覚言語モデル(VLM)は大規模なデータセットに大きく依存している。本研究では,「品質データ」の定義,適切なデータ生成方法の開発,モデルトレーニングへのアクセシビリティ向上など,重要な分野について検討する。
論文参考訳（メタデータ） (2024-10-10T13:00:53Z)
Bahasa Harmony: A Comprehensive Dataset for Bahasa Text-to-Speech Synthesis with Discrete Codec Modeling of EnGen-TTS [0.0]
本研究では,包括的バハサテキスト音声データセットと,新しいTSモデルであるEnGen-TTSを紹介する。提案したEnGen-TTSモデルは、確立されたベースラインよりも優れており、平均オピニオンスコア(MOS)は4.45$pm$ 0.13である。この研究はバハサ TTS 技術の進歩であり、多様な言語応用に影響を及ぼす。
論文参考訳（メタデータ） (2024-10-09T07:01:05Z)
SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
Generating Data with Text-to-Speech and Large-Language Models for Conversational Speech Recognition [48.527630771422935]
複数話者対話型ASRのための合成データ生成パイプラインを提案する。我々は、電話と遠隔会話音声設定のためのWhisper ASRモデルを微調整して評価を行う。
論文参考訳（メタデータ） (2024-08-17T14:47:05Z)
On the Problem of Text-To-Speech Model Selection for Synthetic Data Generation in Automatic Speech Recognition [31.58289343561422]
合成データ生成の範囲内で, 5種類のTSデコーダアーキテクチャを比較し, CTCに基づく音声認識学習への影響を示す。データ生成における自己回帰復号法は,非自己回帰復号法よりも優れており,TTS一般化能力を定量化するためのアプローチを提案する。
論文参考訳（メタデータ） (2024-07-31T09:37:27Z)
Deepfake audio as a data augmentation technique for training automatic speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文参考訳（メタデータ） (2023-09-22T11:33:03Z)
Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文参考訳（メタデータ） (2023-03-20T09:13:27Z)
NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。 LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文参考訳（メタデータ） (2022-05-09T16:57:35Z)
A Survey on Neural Speech Synthesis [110.39292386792555]
テキスト・トゥ・スピーチ(TTS)は、音声、言語、機械学習のコミュニティにおけるホットな研究テーマである。我々は、現在の研究と今後のトレンドをよく理解することを目的として、ニューラルTSに関する包括的な調査を行っている。我々は、テキスト分析、音響モデル、ボコーダなど、ニューラルネットワークの重要なコンポーネントと、高速TS、低リソースTS、堅牢TS、表現型TS、適応型TSなど、いくつかの先進的なトピックに焦点を当てる。
論文参考訳（メタデータ） (2021-06-29T16:50:51Z)
HUI-Audio-Corpus-German: A high quality TTS dataset [0.0]
HUI-Audio-Corpus-German"は、TTSエンジン用の大規模なオープンソースデータセットで、処理パイプラインで作成されている。このデータセットは、高品質なオーディオから書き起こしアライメントを生成し、作成に必要な手作業を減らす。
論文参考訳（メタデータ） (2021-06-11T10:59:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。