論文の概要: An Automated End-to-End Open-Source Software for High-Quality
Text-to-Speech Dataset Generation
- arxiv url: http://arxiv.org/abs/2402.16380v1
- Date: Mon, 26 Feb 2024 07:58:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 14:17:52.476851
- Title: An Automated End-to-End Open-Source Software for High-Quality
Text-to-Speech Dataset Generation
- Title(参考訳): 高品質テキスト音声データセット生成のためのエンドツーエンドオープンソースソフトウェア
- Authors: Ahmet Gunduz, Kamer Ali Yuksel, Kareem Darwish, Golara Javadi, Fabio
Minazzi, Nicola Sobieski and Sebastien Bratieres
- Abstract要約: 本稿では,テキスト音声(TTS)モデルのための高品質なデータセットを生成するエンドツーエンドツールを提案する。
言語固有の音素分布をサンプル選択に統合する。
提案するアプリケーションは,これらの機能を通じて,TSモデルのデータセット作成プロセスを合理化することを目的としている。
- 参考スコア(独自算出の注目度): 3.6893151241749966
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Data availability is crucial for advancing artificial intelligence
applications, including voice-based technologies. As content creation,
particularly in social media, experiences increasing demand, translation and
text-to-speech (TTS) technologies have become essential tools. Notably, the
performance of these TTS technologies is highly dependent on the quality of the
training data, emphasizing the mutual dependence of data availability and
technological progress. This paper introduces an end-to-end tool to generate
high-quality datasets for text-to-speech (TTS) models to address this critical
need for high-quality data. The contributions of this work are manifold and
include: the integration of language-specific phoneme distribution into sample
selection, automation of the recording process, automated and human-in-the-loop
quality assurance of recordings, and processing of recordings to meet specified
formats. The proposed application aims to streamline the dataset creation
process for TTS models through these features, thereby facilitating
advancements in voice-based technologies.
- Abstract(参考訳): データ可用性は、音声ベースの技術を含む人工知能アプリケーションの発展に不可欠である。
コンテンツ制作、特にソーシャルメディアでは、需要の増加、翻訳、テキスト音声(TTS)技術が重要なツールとなっている。
特に、これらのTS技術の性能はトレーニングデータの質に大きく依存しており、データの可用性と技術進歩の相互依存を強調している。
本稿では,テキスト音声(TTS)モデルの高品質なデータセットを生成するためのエンドツーエンドツールを提案する。
この研究の貢献は、言語固有の音素分布をサンプル選択に統合すること、記録プロセスの自動化、記録の自動化とループ内品質保証、特定のフォーマットを満たすための記録の処理である。
提案するアプリケーションは,ttsモデルのデータセット生成プロセスの合理化を目的とし,音声ベースの技術の進歩を促進する。
関連論文リスト
- Automating the Information Extraction from Semi-Structured Interview
Transcripts [0.0]
本稿では,半構造化面接書から情報を取り出す自動システムの開発と応用について検討する。
本稿では,研究者がインタビューデータのテーマ構造を効率的に処理し,視覚化できる,ユーザフレンドリーなソフトウェアプロトタイプを提案する。
論文 参考訳(メタデータ) (2024-03-07T13:53:03Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - A Large-scale Dataset for Audio-Language Representation Learning [54.933479346870506]
本稿では,一連の公開ツールやAPIに基づいた,革新的で自動的な音声キャプション生成パイプラインを提案する。
我々はAuto-ACDという名前の大規模で高品質な音声言語データセットを構築し、190万以上の音声テキストペアからなる。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - CelebV-Text: A Large-Scale Facial Text-Video Dataset [91.22496444328151]
CelebV-Textは、顔テキストとビデオのペアの大規模で多様で高品質なデータセットである。
CelebV-Textは、7万本の顔ビデオクリップと多様なビジュアルコンテンツで構成され、それぞれに半自動テキスト生成戦略を用いて生成された20のテキストをペアリングする。
他のデータセットよりもCelebV-Textの方が優れていることは、ビデオ、テキスト、およびテキスト-ビデオ関連性の包括的な統計分析によって示される。
論文 参考訳(メタデータ) (2023-03-26T13:06:35Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Language Agnostic Data-Driven Inverse Text Normalization [6.43601166279978]
逆テキスト正規化(ITN)問題は、様々な分野から研究者の注目を集めている。
ラベル付き音声によるデータセットが不足しているため、非英語のデータ駆動ITNの研究は非常に限られている。
このギャップを埋めるために、言語に依存しないデータ駆動ITNフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T10:33:03Z) - NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level
Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。
具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。
LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文 参考訳(メタデータ) (2022-05-09T16:57:35Z) - Cross-Speaker Emotion Transfer for Low-Resource Text-to-Speech Using
Non-Parallel Voice Conversion with Pitch-Shift Data Augmentation [19.807274303199755]
本稿では,ピッチシフトとVC技術を組み合わせた新しいデータ拡張手法を提案する。
ピッチシフトデータ拡張は様々なピッチダイナミクスのカバレッジを可能にするため、VCモデルとTSモデルのトレーニングを大幅に安定化させる。
提案手法を用いたFastSpeech 2 ベースの感情的 TTS システムでは,従来の方法に比べて自然性や感情的類似性が向上した。
論文 参考訳(メタデータ) (2022-04-21T11:03:37Z) - A Survey on Neural Speech Synthesis [110.39292386792555]
テキスト・トゥ・スピーチ(TTS)は、音声、言語、機械学習のコミュニティにおけるホットな研究テーマである。
我々は、現在の研究と今後のトレンドをよく理解することを目的として、ニューラルTSに関する包括的な調査を行っている。
我々は、テキスト分析、音響モデル、ボコーダなど、ニューラルネットワークの重要なコンポーネントと、高速TS、低リソースTS、堅牢TS、表現型TS、適応型TSなど、いくつかの先進的なトピックに焦点を当てる。
論文 参考訳(メタデータ) (2021-06-29T16:50:51Z) - HUI-Audio-Corpus-German: A high quality TTS dataset [0.0]
HUI-Audio-Corpus-German"は、TTSエンジン用の大規模なオープンソースデータセットで、処理パイプラインで作成されている。
このデータセットは、高品質なオーディオから書き起こしアライメントを生成し、作成に必要な手作業を減らす。
論文 参考訳(メタデータ) (2021-06-11T10:59:09Z) - Data Processing for Optimizing Naturalness of Vietnamese Text-to-speech
System [0.7160601421935839]
そこで本研究では,新しいデータ処理手法を用いてTTSシステムの自然性を最適化することを目的とする。
終末RTSが4.1のスコア(MOS)を達成したのに対し、自然言語の4.3は4.1であった。
論文 参考訳(メタデータ) (2020-04-20T20:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。