論文の概要: Noise-robust zero-shot text-to-speech synthesis conditioned on
self-supervised speech-representation model with adapters
- arxiv url: http://arxiv.org/abs/2401.05111v1
- Date: Wed, 10 Jan 2024 12:21:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 14:40:32.767015
- Title: Noise-robust zero-shot text-to-speech synthesis conditioned on
self-supervised speech-representation model with adapters
- Title(参考訳): アダプター付き自己教師付き音声表現モデルに基づくノイズロバストゼロショット音声合成
- Authors: Kenichi Fujita, Hiroshi Sato, Takanori Ashihara, Hiroki Kanagawa, Marc
Delcroix, Takafumi Moriya, Yusuke Ijima
- Abstract要約: ゼロショットテキスト音声(TTS)法は,話者特性を極めて正確に再現することができる。
しかし、この手法は、参照音声が雑音を含む場合、音声合成品質の劣化に悩まされる。
本稿では,ノイズロストゼロショットTS法を提案する。
- 参考スコア(独自算出の注目度): 47.75276947690528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The zero-shot text-to-speech (TTS) method, based on speaker embeddings
extracted from reference speech using self-supervised learning (SSL) speech
representations, can reproduce speaker characteristics very accurately.
However, this approach suffers from degradation in speech synthesis quality
when the reference speech contains noise. In this paper, we propose a
noise-robust zero-shot TTS method. We incorporated adapters into the SSL model,
which we fine-tuned with the TTS model using noisy reference speech. In
addition, to further improve performance, we adopted a speech enhancement (SE)
front-end. With these improvements, our proposed SSL-based zero-shot TTS
achieved high-quality speech synthesis with noisy reference speech. Through the
objective and subjective evaluations, we confirmed that the proposed method is
highly robust to noise in reference speech, and effectively works in
combination with SE.
- Abstract(参考訳): 自己教師付き学習(SSL)音声表現を用いて参照音声から抽出した話者埋め込みに基づくゼロショット音声合成(TTS)法は,話者特性を極めて正確に再現することができる。
しかし、この手法は、参照音声が雑音を含む場合、音声合成品質の劣化に悩まされる。
本稿では,ノイズロストゼロショットTS法を提案する。
我々はSSLモデルにアダプタを組み込み、ノイズレファレンス音声を用いてTSモデルを微調整した。
さらに,性能向上のために,音声強調(SE)フロントエンドを採用した。
これらの改良により,提案するsslベースのゼロショットttsは,雑音下参照音声を用いた高品質な音声合成を実現することができた。
目的および主観的評価を通じて,提案手法は参照音声の雑音に対して非常に頑健であり,SEと組み合わせて効果的に動作することを確認した。
関連論文リスト
- SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Cross-lingual Text-To-Speech with Flow-based Voice Conversion for
Improved Pronunciation [11.336431583289382]
本稿では,エンドツーエンドの言語間テキスト合成手法を提案する。
本来の話者の言語によらず、対象言語の発音を維持することを目的としている。
論文 参考訳(メタデータ) (2022-10-31T12:44:53Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z) - Adversarial Feature Learning and Unsupervised Clustering based Speech
Synthesis for Found Data with Acoustic and Textual Noise [18.135965605011105]
注意に基づくシーケンス・ツー・シーケンス(seq2seq)音声合成は、異常な性能を達成している。
このようなSeq2seqシステムをトレーニングするには、手書きによるスタジオ品質のコーパスが必要である。
本稿では,高品質で安定したSeq2seqに基づく音声合成システムの構築手法を提案する。
論文 参考訳(メタデータ) (2020-04-28T15:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。