論文の概要: Data Processing for Optimizing Naturalness of Vietnamese Text-to-speech
System
- arxiv url: http://arxiv.org/abs/2004.09607v1
- Date: Mon, 20 Apr 2020 20:11:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 19:30:57.226305
- Title: Data Processing for Optimizing Naturalness of Vietnamese Text-to-speech
System
- Title(参考訳): ベトナム語音声合成システムの自然性最適化のためのデータ処理
- Authors: Viet Lam Phung, Phan Huy Kinh, Anh Tuan Dinh, Quoc Bao Nguyen
- Abstract要約: そこで本研究では,新しいデータ処理手法を用いてTTSシステムの自然性を最適化することを目的とする。
終末RTSが4.1のスコア(MOS)を達成したのに対し、自然言語の4.3は4.1であった。
- 参考スコア(独自算出の注目度): 0.7160601421935839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Abstract End-to-end text-to-speech (TTS) systems has proved its great success
in the presence of a large amount of high-quality training data recorded in
anechoic room with high-quality microphone. Another approach is to use
available source of found data like radio broadcast news. We aim to optimize
the naturalness of TTS system on the found data using a novel data processing
method. The data processing method includes 1) utterance selection and 2)
prosodic punctuation insertion to prepare training data which can optimize the
naturalness of TTS systems. We showed that using the processing data method, an
end-to-end TTS achieved a mean opinion score (MOS) of 4.1 compared to 4.3 of
natural speech. We showed that the punctuation insertion contributed the most
to the result. To facilitate the research and development of TTS systems, we
distributed the processed data of one speaker at
https://forms.gle/6Hk5YkqgDxAaC2BU6.
- Abstract(参考訳): 音声合成システムTTS(Abstract End-to-end Text-to-Speech)は,高品質なマイクロホンを備えた無響室で記録された大量の高品質なトレーニングデータの存在で大きな成功を収めている。
もう1つのアプローチは、ラジオ放送ニュースのような利用可能なデータソースを使用することである。
本研究では,新しいデータ処理手法を用いて,TTSシステムの自然性を改善することを目的とする。
データ処理方法が付属する
1)発話選択、及び
2) ttsシステムの自然性を最適化する訓練データを作成するための韻律句読点挿入法
その結果, 処理データ法を用いて, 音声の4.3に対して, エンド・ツー・エンドのttsは4.1の平均評価スコア(mos)を達成した。
我々は句読点挿入が結果に最も寄与したことを示した。
TTSシステムの研究・開発を容易にするため,ある話者の処理データをhttps://forms.gle/6Hk5YkqgDxAaC2BU6で配布した。
関連論文リスト
- SpoofCeleb: Speech Deepfake Detection and SASV In The Wild [76.71096751337888]
SpoofCelebは、音声ディープフェイク検出(SDD)とスポフィングロバスト自動話者検証(SASV)のために設計されたデータセットである。
我々は,テキスト・トゥ・スペーチ(TTS)システムによって生成された実世界の状況からのソースデータとスプーフィング攻撃を利用して,同じ実世界のデータに基づいて訓練した。
SpoofCelebは、1,251人のユニークな話者による250万以上の発話で構成され、自然界の状況下で収集されている。
論文 参考訳(メタデータ) (2024-09-18T23:17:02Z) - Text-To-Speech Synthesis In The Wild [76.71096751337888]
テキスト音声システム(TTS)は、伝統的にスタジオ品質の控えめなデータベースを用いて訓練されている。
本稿では,話者認識に一般的に使用されるVoxCeleb1データセットに適用した,完全に自動化されたパイプラインの結果であるTS In the Wild (TITW)データセットを紹介する。
我々は、TITW-Easyを用いて、最近の多くのTSモデルをうまくトレーニングできることを示し、TITW-Hardを用いて同様の結果を生成することは極めて困難である。
論文 参考訳(メタデータ) (2024-09-13T10:58:55Z) - Leveraging Speech PTM, Text LLM, and Emotional TTS for Speech Emotion
Recognition [42.09340937787435]
本研究では,異なる音声教師付き事前学習モデルの表現能力について検討した。
我々は,感情的に一致したテキストと音声を生成するために,強力な大言語モデル (LLM), GPT-4, 感情的テキスト音声モデル (TTS) を使用した。
論文 参考訳(メタデータ) (2023-09-19T03:52:01Z) - Unsupervised Data Selection for TTS: Using Arabic Broadcast News as a
Case Study [44.07589545984369]
本稿では、自動データ選択と事前学習/微調整戦略を含む、TS構築のための完全に教師なしの手法を提案する。
我々は,データの選択を慎重に行うことで,TSシステムの効率が向上することを示す。
評価の結果,CERは3.9%,CERは1.3%であった。
論文 参考訳(メタデータ) (2023-01-22T10:41:58Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。