論文の概要: An Investigation of Noise Robustness for Flow-Matching-Based Zero-Shot TTS
- arxiv url: http://arxiv.org/abs/2406.05699v1
- Date: Sun, 9 Jun 2024 08:51:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 18:27:03.064388
- Title: An Investigation of Noise Robustness for Flow-Matching-Based Zero-Shot TTS
- Title(参考訳): フローマッチングに基づくゼロショットTSにおけるノイズロバスト性の検討
- Authors: Xiaofei Wang, Sefik Emre Eskimez, Manthan Thakker, Hemin Yang, Zirun Zhu, Min Tang, Yufei Xia, Jinzhu Li, Sheng Zhao, Jinyu Li, Naoyuki Kanda,
- Abstract要約: ゼロショット音声合成システム(TTS)は、任意の話者の声を短い音声プロンプトから合成することができる。
生成した音声の品質は、音声プロンプトがノイズを含むと著しく劣化する。
本稿では,ノイズの多い音声プロンプトから発生する音声の質を高めるための様々な手法について検討する。
- 参考スコア(独自算出の注目度): 43.84833978193758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, zero-shot text-to-speech (TTS) systems, capable of synthesizing any speaker's voice from a short audio prompt, have made rapid advancements. However, the quality of the generated speech significantly deteriorates when the audio prompt contains noise, and limited research has been conducted to address this issue. In this paper, we explored various strategies to enhance the quality of audio generated from noisy audio prompts within the context of flow-matching-based zero-shot TTS. Our investigation includes comprehensive training strategies: unsupervised pre-training with masked speech denoising, multi-speaker detection and DNSMOS-based data filtering on the pre-training data, and fine-tuning with random noise mixing. The results of our experiments demonstrate significant improvements in intelligibility, speaker similarity, and overall audio quality compared to the approach of applying speech enhancement to the audio prompt.
- Abstract(参考訳): 近年,短い音声プロンプトから任意の話者の声を合成できるゼロショット音声合成システム(TTS)が急速に進歩している。
しかし、音声のプロンプトにノイズが含まれている場合、生成音声の品質は著しく低下し、この問題に対処するための限定的な研究がなされている。
本稿では,フローマッチングに基づくゼロショットTSの文脈において,ノイズの多い音声プロンプトから発生する音声の質を高めるための様々な手法について検討した。
本研究は、マスク付き音声認識による教師なし事前学習、事前学習データに基づくマルチスピーカ検出とDNSMOSに基づくデータフィルタリング、ランダムノイズミキシングによる微調整を含む総合的なトレーニング戦略を含む。
実験の結果,音声プロンプトへの音声強調のアプローチと比較して,インテリジェンス,話者の類似性,音声品質の大幅な改善が示された。
関連論文リスト
- Noise-robust zero-shot text-to-speech synthesis conditioned on
self-supervised speech-representation model with adapters [47.75276947690528]
ゼロショットテキスト音声(TTS)法は,話者特性を極めて正確に再現することができる。
しかし、この手法は、参照音声が雑音を含む場合、音声合成品質の劣化に悩まされる。
本稿では,ノイズロストゼロショットTS法を提案する。
論文 参考訳(メタデータ) (2024-01-10T12:21:21Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Distribution augmentation for low-resource expressive text-to-speech [18.553812159109253]
本稿では,TTS(text-to-speech)のための新しいデータ拡張手法を提案する。
追加データを必要とすることなく、新たな(テキスト、オーディオ)トレーニング例を生成することができる。
論文 参考訳(メタデータ) (2022-02-13T21:19:31Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Text-to-speech for the hearing impaired [0.0]
テキスト音声(TTS)システムは、受信端で補正するのではなく、音源の聴覚損失を補うことができる。
本研究では,高分解能時間,周波数,レベルにおいて,音質を正常な知覚に復元するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-03T18:52:03Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z) - Adversarial Feature Learning and Unsupervised Clustering based Speech
Synthesis for Found Data with Acoustic and Textual Noise [18.135965605011105]
注意に基づくシーケンス・ツー・シーケンス(seq2seq)音声合成は、異常な性能を達成している。
このようなSeq2seqシステムをトレーニングするには、手書きによるスタジオ品質のコーパスが必要である。
本稿では,高品質で安定したSeq2seqに基づく音声合成システムの構築手法を提案する。
論文 参考訳(メタデータ) (2020-04-28T15:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。