論文の概要: Data Processing for Optimizing Naturalness of Vietnamese Text-to-speech
System
- arxiv url: http://arxiv.org/abs/2004.09607v1
- Date: Mon, 20 Apr 2020 20:11:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 19:30:57.226305
- Title: Data Processing for Optimizing Naturalness of Vietnamese Text-to-speech
System
- Title(参考訳): ベトナム語音声合成システムの自然性最適化のためのデータ処理
- Authors: Viet Lam Phung, Phan Huy Kinh, Anh Tuan Dinh, Quoc Bao Nguyen
- Abstract要約: そこで本研究では,新しいデータ処理手法を用いてTTSシステムの自然性を最適化することを目的とする。
終末RTSが4.1のスコア(MOS)を達成したのに対し、自然言語の4.3は4.1であった。
- 参考スコア(独自算出の注目度): 0.7160601421935839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Abstract End-to-end text-to-speech (TTS) systems has proved its great success
in the presence of a large amount of high-quality training data recorded in
anechoic room with high-quality microphone. Another approach is to use
available source of found data like radio broadcast news. We aim to optimize
the naturalness of TTS system on the found data using a novel data processing
method. The data processing method includes 1) utterance selection and 2)
prosodic punctuation insertion to prepare training data which can optimize the
naturalness of TTS systems. We showed that using the processing data method, an
end-to-end TTS achieved a mean opinion score (MOS) of 4.1 compared to 4.3 of
natural speech. We showed that the punctuation insertion contributed the most
to the result. To facilitate the research and development of TTS systems, we
distributed the processed data of one speaker at
https://forms.gle/6Hk5YkqgDxAaC2BU6.
- Abstract(参考訳): 音声合成システムTTS(Abstract End-to-end Text-to-Speech)は,高品質なマイクロホンを備えた無響室で記録された大量の高品質なトレーニングデータの存在で大きな成功を収めている。
もう1つのアプローチは、ラジオ放送ニュースのような利用可能なデータソースを使用することである。
本研究では,新しいデータ処理手法を用いて,TTSシステムの自然性を改善することを目的とする。
データ処理方法が付属する
1)発話選択、及び
2) ttsシステムの自然性を最適化する訓練データを作成するための韻律句読点挿入法
その結果, 処理データ法を用いて, 音声の4.3に対して, エンド・ツー・エンドのttsは4.1の平均評価スコア(mos)を達成した。
我々は句読点挿入が結果に最も寄与したことを示した。
TTSシステムの研究・開発を容易にするため,ある話者の処理データをhttps://forms.gle/6Hk5YkqgDxAaC2BU6で配布した。
関連論文リスト
- Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis [35.16243386407448]
Bridge-TTSは、確立された拡散に基づくTS法において、ノイズの多いガウスをクリーンで決定論的に置き換える新しいTSシステムである。
具体的には、テキスト入力から得られた潜伏表現を前もって利用し、それと地上トルス・メル・スペクトログラムの間に完全にトラクタブルなシュロディンガーブリッジを構築する。
論文 参考訳(メタデータ) (2023-12-06T13:31:55Z) - Leveraging Speech PTM, Text LLM, and Emotional TTS for Speech Emotion
Recognition [42.09340937787435]
本研究では,異なる音声教師付き事前学習モデルの表現能力について検討した。
我々は,感情的に一致したテキストと音声を生成するために,強力な大言語モデル (LLM), GPT-4, 感情的テキスト音声モデル (TTS) を使用した。
論文 参考訳(メタデータ) (2023-09-19T03:52:01Z) - Unsupervised Data Selection for TTS: Using Arabic Broadcast News as a
Case Study [44.07589545984369]
本稿では、自動データ選択と事前学習/微調整戦略を含む、TS構築のための完全に教師なしの手法を提案する。
我々は,データの選択を慎重に行うことで,TSシステムの効率が向上することを示す。
評価の結果,CERは3.9%,CERは1.3%であった。
論文 参考訳(メタデータ) (2023-01-22T10:41:58Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。